2016年09月_mousever

09月 08月 07月 05月 03月 02月 01月

转载推荐系统中协同过滤算法实现分析（重要两个图！！）

最近研究Mahout比较多，特别是里面协同过滤算法；于是把协同过滤算法的这个实现思路与数据流程，总结了一下，以便以后对系统做优化时，有个清晰的思路，这样才能知道该如何优化且优化后数据亦能正确。推荐中的协同过滤算法简单说明下：首先，通过分析用户的偏好行为，来挖掘出里面物品与物品、或人与人之间的关联。其次，通过对这些关联的关系做一定的运算，得出人与物品

2016-09-12 22:25:48 7750

转载协同过滤中item-based与user-based选择依据

此文总结的不错。协同过滤是大家熟知的推荐算法。总的来说协同过滤又可以分为以下两大类：Neighborhood-based：计算相似item 或user后进行推荐Model-based：直接训练模型预测Rating在Neighborhoold-based算法中，又细分为user-based CF(Collaborative Filtering)和item-based CF

2016-09-12 22:22:23 1132

转载数据挖掘之lsh minhash simhash

在项目中碰到这样的问题：互联网用户每天会访问很多的网页，假设两个用户访问过相同的网页，说明两个用户相似，相同的网页越多，用户相似度越高，这就是典型的CF中的user-based推荐算法。算法的原理很简单，只要两两计算用户的相似性，针对每个用户，获取最相似的K个用户即可。但是在实际的工程上，假定用户规模在亿的规模N，计算复杂度为N*N，即使是分布式，也是非常可怕的复杂

2016-09-09 22:39:50 1020

转载 ChiMerge 算法: 以鸢尾花数据集为例

ChiMerge 是监督的、自底向上的(即基于合并的)数据离散化方法。它依赖于卡方分析：具有最小卡方值的相邻区间合并在一起，直到满足确定的停止准则。基本思想：对于精确的离散化，相对类频率在一个区间内应当完全一致。因此，如果两个相邻的区间具有非常类似的类分布，则这两个区间可以合并；否则，它们应当保持分开。而低卡方值表明它们具有相似的类分布。参考：1. ChiMerge:Discret

2016-09-03 19:47:44 4035

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

转载 推荐系统中协同过滤算法实现分析（重要两个图！！）

转载 协同过滤中item-based与user-based选择依据

转载 数据挖掘之lsh minhash simhash

转载 ChiMerge 算法: 以鸢尾花数据集为例

空空如也

空空如也

转载推荐系统中协同过滤算法实现分析（重要两个图！！）

转载协同过滤中item-based与user-based选择依据

转载数据挖掘之lsh minhash simhash