自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

原创 朴素贝叶斯分类算法

一、贝叶斯定理        已知条件概率P(A|B)的情况下如何求得P(B|A),这就要用到贝叶斯定理了:   二、朴素贝叶斯算法的原理朴素贝叶斯分类是一种十分简单的分类算法,叫它朴素贝叶斯分类是因为这种方法的思想真的很朴素,朴素贝叶斯的思想基础是这样的:对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,哪个最大,就认为此待分类项属于哪个类别。通俗来说,就好比这么

2015-11-28 17:55:58 1497

转载 R语言 apply函数家族详解

R语言 apply函数家族详解applyApply Functions Over Array Margins对阵列行或者列使用函数apply(X, MARGIN, FUN, …)lapplyApply a Function over a List or Vector对列表或者向量使用函数lapply(X, FUN, …)

2015-11-28 12:45:30 1109

转载 推荐系统比较好的论

链接:http://www.zhihu.com/question/25566638/answer/37455091来源:知乎推荐几篇对工业界比较有影响的论文吧:1. The Wisdom of The Few 豆瓣阿稳在介绍豆瓣猜的时候极力推荐过这篇论文,豆瓣猜也充分应用了这篇论文中提出的算法;2. Restricted Boltzmann Machines for C

2015-11-20 10:09:54 970

转载 机器学习常见算法分类

机器学习无疑是当前数据分析领域的一个热点内容。很多人在平时的工作中都或多或少会用到机器学习的算法。本文为您总结一下常见的机器学习算法,以供您在工作和学习中参考。机器学习的算法很多。很多时候困惑人们都是,很多算法是一类算法,而有些算法又是从其他算法中延伸出来的。这里,我们从两个方面来给大家介绍,第一个方面是学习的方式,第二个方面是算法的类似性。学习方式根据数据类型的不同,对一

2015-11-20 09:46:00 1145

转载 simhash算法原理及实现

simhash是google用来处理海量文本去重的算法。 google出品,你懂的。 simhash最牛逼的一点就是将一个文档,最后转换成一个64位的字节,暂且称之为特征字,然后判断重复只需要判断他们的特征字的距离是不是原理simhash值的生成图解如下大概花三分钟看懂这个图就差不多怎么实现这个simhash算法了。特别简单。谷歌出品嘛,简单实用。算法过程大概如下:

2015-11-17 17:37:37 1436

原创 矩阵分解模型(1):ALS学习算法

一、矩阵分解模型。用户对物品的打分行为可以表示成一个评分矩阵A(m*n),表示m个用户对n各物品的打分情况。如下图所示:其中,A(i,j)表示用户user i对物品item j的打分。但是,用户不会对所以物品打分,图中?表示用户没有打分的情况,所以这个矩阵A很多元素都是空的,我们称其为“缺失值(missing value)”。在推荐系统中,我们希望得到用户对所有物品的打分情况,如果

2015-11-15 11:42:12 32782 13

转载 ALS 在 Spark MLlib 中的实现

转载自 http://www.csdn.net/article/2015-05-07/2824641深受用户喜爱的大数据处理平台 Apache Spark 1.3 于前不久发布,MLlib 作为 Spark 负责机器学习 (ML) 的核心组件在 1.3 中添加了不少机器学习及数据挖掘的算法:研究主题分布的 latent Dirichlet allocation (LDA)、估计

2015-11-14 10:33:39 2194

原创 隐语义模型LFM

隐语义模型LFM和LSI,LDA,Topic Model其实都属于隐含语义分析技术,是一类概念,他们在本质上是相通的,都是找出潜在的主题或分类。这些技术一开始都是在文本挖掘领域中提出来的,近些年它们也被不断应用到其他领域中,并得到了不错的应用效果。比如,在推荐系统中它能够基于用户的行为对item进行自动聚类,也就是把item划分到不同类别/主题,这些主题/类别可以理解为用户的兴趣。对于一个用户

2015-11-12 21:03:03 4018

转载 基于内容的推荐(Content-based Recommendations)

[本文链接:http://www.cnblogs.com/breezedeus/archive/2012/04/10/2440488.html,转载请注明出处]      Collaborative Filtering Recommendations (协同过滤,简称CF) 是目前最流行的推荐方法,在研究界和工业界得到大量使用。但是,工业界真正使用的系统一般都不会只有CF推荐算法,Cont

2015-11-12 19:10:52 601

转载 推荐系统小结

转载自 http://blog.csdn.net/lzt1983/article/details/38884435许久不做推荐系统了,但偶尔也会关注一些相关的论文或资料。最近喜欢整理思路,顺便把自己过去几年对这个方向的理解做个小结吧。什么是推荐系统:      自动或被动地为用户推送其可能感兴趣的目标单元(商品、人、活动等)的系统。推

2015-11-11 20:02:33 582

原创 基于物品的协同过滤算法(Item-CF)

一、算法思想。    基于物品的协同过滤算法,是给用户推荐和他之前喜欢的物品相似的物品。基于物品的协同过滤算法,是目前广泛使用的一种推荐算法,像Netflix, YouTube, Amazon等。 二、算法步骤。1、计算物品之间的相似度。计算相似度的方法有以下几种:基于余弦(Cosine-based)的相似度计算,通过计算两个向量之间的夹角余弦值来计算物品之间的

2015-11-10 13:59:16 4640

原创 UserCF算法 - 改进用户相似度计算

前面计算用户间兴趣相似度使用的是余弦相似度,该公式过于粗糙,需要改进该公式。      以图书为例,如果两个用户都曾经买过《新华字典》,这丝毫不能说明他们兴趣相似,因为绝大多数中国人小时候都买过《新华字典》。但如果两个用户都买过《数据挖掘导论》,那可以认为他们的兴趣比较相似,因为只有研究数据挖掘的人才会买这本书。换句话说,两个用户对冷门物品采取过同样的行为更能说明他们兴趣的相似度。因此,Joh

2015-11-10 11:45:12 6229 2

转载 数据归一化和两种常用的归一化方法

数据标准化(归一化)处理是数据挖掘的一项基础工作,不同评价指标往往具有不同的量纲和量纲单位,这样的情况会影响到数据分析的结果,为了消除指标之间的量纲影响,需要进行数据标准化处理,以解决数据指标之间的可比性。原始数据经过数据标准化处理后,各指标处于同一数量级,适合进行综合对比评价。以下是两种常用的归一化方法:一、min-max标准化(Min-Max Normalization)也称为

2015-11-09 17:50:14 1241

转载 基于用户的协同过滤推荐算法原理和实现

转载自 http://www.cnblogs.com/technology/p/4467895.html        在推荐系统众多方法中,基于用户的协同过滤推荐算法是最早诞生的,原理也较为简单。该算法1992年提出并用于邮件过滤系统,两年后1994年被 GroupLens 用于新闻过滤。一直到2000年,该算法都是推荐系统领域最著名的算法。        本文简单介绍基于用

2015-11-09 14:07:23 668

原创 K-近邻分类算法KNN

一、KNN算法的步骤计算已知类别数据集中每个点与当前点的距离;选取与当前点距离最小的K个点;统计前K个点中每个类别的样本出现的频率;返回前K个点出现频率最高的类别作为当前点的预测分类。二、计算距离传统上,KNN算法采用的是欧式距离,即:假设item的特征向量为(x1,x2,......,xn),则欧式距离=2个item在特征空间上的直线距离。如果item是文本,它的特征是文

2015-11-07 21:38:37 3341

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除