数据挖掘
meaworld
这个作者很懒,什么都没留下…
展开
-
互联网产品“冷启动”问题浅析
“冷启动”cold boot 是数据挖掘领域的一个专业术语,是指数据挖掘需要数据的积累,而产品初期数据为空或者数据量太少导致所需的数据量达不到要求。 数据挖掘领域的冷启动是个专业问题,我们不做分析,这里要讲的是互联网产品的“冷启动”问题。或者更准确的说是借用“冷启动”这个概念,来解释一下新产品如何获取第一批用户。 (一)为何会出现冷启动的问题 事实上,任何新创的互联网公司都面临“冷启动转载 2012-11-25 21:38:44 · 843 阅读 · 0 评论 -
矩阵分解在推荐系统中的应用
矩阵分解是最近几年比较火的算法,经过kddcup和netflix比赛的多人多次检验,矩阵分解可以带来更好的结果,而且可以充分地考虑各种因素的影响,有非常好的扩展性,因为要考虑多种因素的综合作用,往往需要构造cost function来将矩阵分解问题转化为优化问题,根据要考虑的因素为优化问题添加constraints,然后通过迭代的方法进行矩阵分解,原来评分矩阵中的missing vlaue可以通过转载 2013-01-02 19:49:33 · 6926 阅读 · 2 评论 -
推荐系统相关算法(1):SVD
1. SVD简介 假如要预测Zero君对一部电影M的评分,而手上只有Zero君对若干部电影的评分和风炎君对若干部电影的评分(包含M的评分)。那么能预测出Zero君对M的评分吗?答案显然是能。最简单的方法就是直接将预测分定为平均分。不过这时的准确度就难说了。本文将介绍一种比这个最简单的方法要准上许多,并且也不算复杂的算法。 SVD(Singular Value Decom转载 2013-01-05 12:48:38 · 2326 阅读 · 2 评论 -
梯度下降算法
回归与梯度下降: 回归在数学上来说是给定一个点集,能够用一条曲线去拟合之,如果这个曲线是一条直线,那就被称为线性回归,如果曲线是一条二次曲线,就被称为二次回归,回归还有很多的变种,如locally weighted回归,logistic回归,等等,这个将在后面去讲。 用一个很简单的例子来说明回归,这个例子来自很多的地方,也在很多的open source的软件中看到,比如说w转载 2013-01-06 17:53:52 · 1395 阅读 · 0 评论 -
聚类与分类的定义
1.聚类的概念:有一堆数据,讲这堆数据分成几类称为聚类。举个例子,比如有一堆水果,我们按着不同的特征分为:苹果,橘子,香蕉三类叫做分类。2.分类的概念:在聚类的前提下,拿来一个新水果,我们按着他的特征,把他分到橘子或者香蕉那类中,叫做分类。3.训练集和测试集一般就是把数据分成10份,9:19份作为训练数据,来学习一个模型;1份作为测试数据,来测试原创 2013-01-21 14:05:53 · 6526 阅读 · 1 评论 -
梯度下降3
批量梯度下降是一种对参数的update进行累积,然后批量更新的一种方式。用于在已知整个训练集时的一种训练方式,但对于大规模数据并不合适。随机梯度下降是一种对参数随着样本训练,一个一个的及时update的方式。常用于大规模训练集,当往往容易收敛到局部最优解。详细参见:Andrew Ng 的Machine Learning的课件(见参考1)可能存在的改进1)样本可靠度,特征完备性的转载 2013-01-21 15:11:56 · 900 阅读 · 0 评论 -
推荐系统试验方法和指标
在介绍推荐系统指标之前,首先看一下计算和获得这些指标的主要实验方法。在推荐系统中,主要有三种评测推荐效果的实验方法,即离线实验(offline experiment) 用户调查(user study)和在线实验 (online experiment) . 1. 离线实验(1) 通过日日志收集用户行为数据,并按照一定的格式生成一个标注的数据集。 (2)按照一定的规则将数据集划分为训转载 2013-07-26 18:55:46 · 1706 阅读 · 0 评论 -
集体智慧编程 简介
Netflix 是一家在线租片儿的公司, 并且更具用户过去租片的行为来进行推荐, 他悬赏100万美元去奖励第一个把租片成功率提高10%的团队,以及5 万美元给这个团队的leader,通过提供用户以前租片的纪录给团队们进行推荐,现在做的最牛屄的团队是提高了 7%。 google 是意见搜索公司,创立当时有很多其他的公司, 但是google 通过其他网页对他的外链来进行排序,搜索质量远远好于转载 2013-07-26 18:53:47 · 1164 阅读 · 0 评论 -
推荐系统
pagerank做围脖局部影响力计算example接着上一篇的文章继续写。看了大家在resys china 和 新浪围脖上的评论,启发蛮多的。首先谢谢大家。这次的example中,只用了转发这一种信息作为权重的衡量标准。一共采集不到1w的用户量,平均每个用户1k的围脖信息。类似于google 的pagerank一样,用户A转发用户B的一条围脖,则相当于给用户B投了一票,转载 2013-07-26 19:48:36 · 1613 阅读 · 0 评论