- 博客(4)
- 收藏
- 关注
转载 推荐系统中协同过滤算法实现分析(重要两个图!!)
最近研究Mahout比较多,特别是里面协同过滤算法;于是把协同过滤算法的这个实现思路与数据流程,总结了一下,以便以后对系统做优化时,有个清晰的思路,这样才能知道该如何优化且优化后数据亦能正确。 推荐中的协同过滤算法简单说明下: 首先,通过分析用户的偏好行为,来挖掘出里面物品与物品、或人与人之间的关联。 其次,通过对这些关联的关系做一定的运算,得出人与物品
2016-09-12 22:25:48 7750
转载 协同过滤中item-based与user-based选择依据
此文总结的不错。协同过滤是大家熟知的推荐算法。 总的来说协同过滤又可以分为以下两大类:Neighborhood-based:计算相似item 或user后进行推荐Model-based: 直接训练模型预测Rating在Neighborhoold-based算法中,又细分为user-based CF(Collaborative Filtering)和item-based CF
2016-09-12 22:22:23 1132
转载 数据挖掘之lsh minhash simhash
在项目中碰到这样的问题:互联网用户每天会访问很多的网页,假设两个用户访问过相同的网页,说明两个用户相似,相同的网页越多,用户相似度越高,这就是典型的CF中的user-based推荐算法。算法的原理很简单,只要两两计算用户的相似性,针对每个用户,获取最相似的K个用户即可。但是在实际的工程上,假定用户规模在亿的规模N,计算复杂度为N*N,即使是分布式,也是非常可怕的复杂
2016-09-09 22:39:50 1020
转载 ChiMerge 算法: 以鸢尾花数据集为例
ChiMerge 是监督的、自底向上的(即基于合并的)数据离散化方法。它依赖于卡方分析:具有最小卡方值的相邻区间合并在一起,直到满足确定的停止准则。基本思想:对于精确的离散化,相对类频率在一个区间内应当完全一致。因此,如果两个相邻的区间具有非常类似的类分布,则这两个区间可以合并;否则,它们应当保持分开。而低卡方值表明它们具有相似的类分布。参考:1. ChiMerge:Discret
2016-09-03 19:47:44 4035
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人