算法
文章平均质量分 80
十三月下
现在的我,将开始在DATA MINING的世界里踽踽独行。记录自己学习LinuxHadoopUbuntuVMwaresecureCRTcloudera等的过程,希望有助于你我。Fighting
展开
-
协同过滤算法及其实现代码
Collaborative Filtering Recommendation向量之间的相似度度量向量之间的相似度方法很多了,你可以用距离(各种距离)的倒数,向量夹角,Pearson相关系数等。皮尔森相关系数计算公式如下:分子是协方差,分子是两个变量标准差的乘积。显然要求X和Y的标准差都不能为0。因为,所以皮尔森相关系数计算公式还可以写成:当两个变量的转载 2014-06-10 23:58:01 · 1316 阅读 · 0 评论 -
用WEKA对于数据挖掘时相关算法的介绍和使用方法
数据格式编辑跟很多电子表格或数据分析软件一样,WEKA所处理的数据集是一个二维的表格。这里我们要介绍一下WEKA中的术语。表格里的一个横行称作一个实例(Instance),相当于统计学中的一个样本,或者数据库中的一条记录。 竖行称作一个属性(Attribute),相当于统计学中的一个变量,或者数据库中的一个字段。这样一个表格,或者叫数据集,在WEKA看来,呈现了属性之 间的一种原创 2014-05-23 00:07:53 · 3332 阅读 · 0 评论