Datamining
xiaohei.info
Talk is cheap,show me the code.
展开
-
数据挖掘算法之关联规则挖掘(一)apriori算法
关联规则挖掘算法在生活中的应用处处可见,几乎在各个电子商务网站上都可以看到其应用举个简单的例子如当当网,在你浏览一本书的时候,可以在页面中看到一些套餐推荐,本书+有关系的书1+有关系的书2+...+其他物品=多少¥而这些套餐就很有可能符合你的胃口,原本只想买一本书的你可能会因为这个推荐而买了整个套餐这与userCF和itemCF不同的是,前两种是推荐类似的,或者你可能喜欢的原创 2015-04-23 22:55:16 · 9141 阅读 · 0 评论 -
数据挖掘算法之聚类分析(二)canopy算法
canopy是聚类算法的一种实现它是一种快速,简单,但是不太准确的聚类算法canopy通过两个人为确定的阈值t1,t2来对数据进行计算,可以达到将一堆混乱的数据分类成有一定规则的n个数据堆由于canopy算法本身的目的只是将混乱的数据划分成大概的几个类别,所以它是不太准确的但是通过canopy计算出来的n个类别可以用在kmeans算法中的k值的确定(因为人为无法准确的确定k值到底要原创 2015-04-11 19:18:59 · 7525 阅读 · 2 评论 -
数据挖掘算法之关联规则挖掘(二)FPGrowth算法
之前介绍的apriori算法中因为存在许多的缺陷,例如进行大量的全表扫描和计算量巨大的自然连接,所以现在几乎已经不再使用在mahout的算法库中使用的是PFP算法,该算法是FPGrowth算法的分布式运行方式,其内部的算法结构和FPGrowth算法相差并不是十分巨大所以这里首先介绍在单机内存中运行的FPGrowth算法还是使用apriori算法的购物车数据作为例子,如下图所示:原创 2015-04-24 13:08:32 · 5669 阅读 · 0 评论 -
数据挖掘算法之协同过滤算法
当下使用协同过滤算法计算的推荐系统到处可见,例如淘宝,京东,当当等电商网站,当你在网站上购买或者浏览了某些商品从而被其收集了相对应的数据,下次你在次浏览该网站的时候就会发现,他会根据你之前的购买/浏览记录为你推荐一些商品,而这些商品的推荐往往是十分精准的,因为它是建立在大数据的基础之上计算出来的。基于协同过滤的推荐是推荐算法中的一种思想,协同过滤的思想是这样的:一般是在海量的用户中发掘出一小部分和你原创 2015-04-24 20:28:28 · 4233 阅读 · 0 评论 -
mahout运行测试与数据挖掘算法之聚类分析(一)kmeans算法解析
在使用mahout之前要安装并启动hadoop集群将mahout的包上传至linux中并解压即可mahout下载地址:点击打开链接mahout中的算法大致可以分为三大类:聚类,协同过滤和分类其中常用聚类算法有:canopy聚类,k均值算法(kmeans),模糊k均值,层次聚类,LDA聚类等常用分类算法有:贝叶斯,逻辑回归,支持向量机,感知器,神经网络等原创 2015-04-10 20:25:20 · 3423 阅读 · 0 评论 -
数据挖掘算法之分类分析(一)贝叶斯分类器
贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类对于分类问题,其实谁都不会陌生,每个人生活中无时不刻的在进行着分类。例如,走在大马路上看到女孩子,你会下意识的将她分为漂亮和不漂亮(漂亮当然就多看几眼啦)。在比如,在路上遇到一只狗,你会根据这只狗的毛发脏不脏,然后想到这是一只流浪狗还是家养的宠物狗。这些其实都是生活中的分类操作。而贝叶斯分类是在生活中分类的原创 2015-04-17 09:29:34 · 5556 阅读 · 0 评论