2015年11月_oucpowerman

原创朴素贝叶斯分类算法

一、贝叶斯定理已知条件概率P(A|B)的情况下如何求得P(B|A)，这就要用到贝叶斯定理了：二、朴素贝叶斯算法的原理朴素贝叶斯分类是一种十分简单的分类算法，叫它朴素贝叶斯分类是因为这种方法的思想真的很朴素，朴素贝叶斯的思想基础是这样的：对于给出的待分类项，求解在此项出现的条件下各个类别出现的概率，哪个最大，就认为此待分类项属于哪个类别。通俗来说，就好比这么

2015-11-28 17:55:58 1497

转载 R语言 apply函数家族详解

R语言 apply函数家族详解applyApply Functions Over Array Margins对阵列行或者列使用函数apply(X, MARGIN, FUN, …)lapplyApply a Function over a List or Vector对列表或者向量使用函数lapply(X, FUN, …)

2015-11-28 12:45:30 1109

转载推荐系统比较好的论

链接：http://www.zhihu.com/question/25566638/answer/37455091来源：知乎推荐几篇对工业界比较有影响的论文吧：1. The Wisdom of The Few 豆瓣阿稳在介绍豆瓣猜的时候极力推荐过这篇论文，豆瓣猜也充分应用了这篇论文中提出的算法；2. Restricted Boltzmann Machines for C

2015-11-20 10:09:54 970

转载机器学习常见算法分类

机器学习无疑是当前数据分析领域的一个热点内容。很多人在平时的工作中都或多或少会用到机器学习的算法。本文为您总结一下常见的机器学习算法，以供您在工作和学习中参考。机器学习的算法很多。很多时候困惑人们都是，很多算法是一类算法，而有些算法又是从其他算法中延伸出来的。这里，我们从两个方面来给大家介绍，第一个方面是学习的方式，第二个方面是算法的类似性。学习方式根据数据类型的不同，对一

2015-11-20 09:46:00 1145

转载 simhash算法原理及实现

simhash是google用来处理海量文本去重的算法。 google出品，你懂的。 simhash最牛逼的一点就是将一个文档，最后转换成一个64位的字节，暂且称之为特征字，然后判断重复只需要判断他们的特征字的距离是不是原理simhash值的生成图解如下大概花三分钟看懂这个图就差不多怎么实现这个simhash算法了。特别简单。谷歌出品嘛，简单实用。算法过程大概如下：

2015-11-17 17:37:37 1436

原创矩阵分解模型（1）：ALS学习算法

一、矩阵分解模型。用户对物品的打分行为可以表示成一个评分矩阵A(m*n)，表示m个用户对n各物品的打分情况。如下图所示：其中，A(i,j)表示用户user i对物品item j的打分。但是，用户不会对所以物品打分，图中？表示用户没有打分的情况，所以这个矩阵A很多元素都是空的，我们称其为“缺失值（missing value）”。在推荐系统中，我们希望得到用户对所有物品的打分情况，如果

2015-11-15 11:42:12 32782 13

转载 ALS 在 Spark MLlib 中的实现

转载自 http://www.csdn.net/article/2015-05-07/2824641深受用户喜爱的大数据处理平台 Apache Spark 1.3 于前不久发布，MLlib 作为 Spark 负责机器学习（ML）的核心组件在 1.3 中添加了不少机器学习及数据挖掘的算法：研究主题分布的 latent Dirichlet allocation （LDA）、估计

2015-11-14 10:33:39 2194

原创隐语义模型LFM

隐语义模型LFM和LSI，LDA，Topic Model其实都属于隐含语义分析技术，是一类概念，他们在本质上是相通的，都是找出潜在的主题或分类。这些技术一开始都是在文本挖掘领域中提出来的，近些年它们也被不断应用到其他领域中，并得到了不错的应用效果。比如，在推荐系统中它能够基于用户的行为对item进行自动聚类，也就是把item划分到不同类别/主题，这些主题/类别可以理解为用户的兴趣。对于一个用户

2015-11-12 21:03:03 4018

转载基于内容的推荐（Content-based Recommendations）

[本文链接：http://www.cnblogs.com/breezedeus/archive/2012/04/10/2440488.html，转载请注明出处] Collaborative Filtering Recommendations (协同过滤，简称CF) 是目前最流行的推荐方法，在研究界和工业界得到大量使用。但是，工业界真正使用的系统一般都不会只有CF推荐算法，Cont

2015-11-12 19:10:52 601

转载推荐系统小结

转载自 http://blog.csdn.net/lzt1983/article/details/38884435许久不做推荐系统了，但偶尔也会关注一些相关的论文或资料。最近喜欢整理思路，顺便把自己过去几年对这个方向的理解做个小结吧。什么是推荐系统：自动或被动地为用户推送其可能感兴趣的目标单元（商品、人、活动等）的系统。推

2015-11-11 20:02:33 582

原创基于物品的协同过滤算法（Item-CF）

一、算法思想。基于物品的协同过滤算法，是给用户推荐和他之前喜欢的物品相似的物品。基于物品的协同过滤算法，是目前广泛使用的一种推荐算法，像Netflix, YouTube, Amazon等。二、算法步骤。1、计算物品之间的相似度。计算相似度的方法有以下几种：基于余弦（Cosine-based）的相似度计算，通过计算两个向量之间的夹角余弦值来计算物品之间的

2015-11-10 13:59:16 4640

原创 UserCF算法 - 改进用户相似度计算

前面计算用户间兴趣相似度使用的是余弦相似度，该公式过于粗糙，需要改进该公式。以图书为例，如果两个用户都曾经买过《新华字典》，这丝毫不能说明他们兴趣相似，因为绝大多数中国人小时候都买过《新华字典》。但如果两个用户都买过《数据挖掘导论》，那可以认为他们的兴趣比较相似，因为只有研究数据挖掘的人才会买这本书。换句话说，两个用户对冷门物品采取过同样的行为更能说明他们兴趣的相似度。因此，Joh

2015-11-10 11:45:12 6229 2

转载数据归一化和两种常用的归一化方法

数据标准化（归一化）处理是数据挖掘的一项基础工作，不同评价指标往往具有不同的量纲和量纲单位，这样的情况会影响到数据分析的结果，为了消除指标之间的量纲影响，需要进行数据标准化处理，以解决数据指标之间的可比性。原始数据经过数据标准化处理后，各指标处于同一数量级，适合进行综合对比评价。以下是两种常用的归一化方法：一、min-max标准化（Min-Max Normalization）也称为

2015-11-09 17:50:14 1241

转载基于用户的协同过滤推荐算法原理和实现

转载自 http://www.cnblogs.com/technology/p/4467895.html 在推荐系统众多方法中，基于用户的协同过滤推荐算法是最早诞生的，原理也较为简单。该算法1992年提出并用于邮件过滤系统，两年后1994年被 GroupLens 用于新闻过滤。一直到2000年，该算法都是推荐系统领域最著名的算法。本文简单介绍基于用

2015-11-09 14:07:23 668

原创 K-近邻分类算法KNN

一、KNN算法的步骤计算已知类别数据集中每个点与当前点的距离；选取与当前点距离最小的K个点；统计前K个点中每个类别的样本出现的频率；返回前K个点出现频率最高的类别作为当前点的预测分类。二、计算距离传统上，KNN算法采用的是欧式距离，即：假设item的特征向量为（x1,x2,......,xn），则欧式距离=2个item在特征空间上的直线距离。如果item是文本，它的特征是文

2015-11-07 21:38:37 3341

oucpowerman的博客