数据挖掘、机器学习
坚持到底cw
奋斗青年
展开
-
mahout学习
Mahout 是机器学习和数据挖掘的一个分布式框架,区别于其他的开源数据挖掘软件,它是基于hadoop之上的; 所以hadoop的优势就是Mahout的优势。Mahout用map-reduce实现了部分数据挖掘算法,解决了并行挖掘的问题。一. 配置maven: 1. 下载maven,http://maven.apache.org/download.cgi ,原创 2013-11-27 15:19:58 · 1760 阅读 · 0 评论 -
关联规则(频繁项集)——Apriori
1.该问题最初是对“购物篮”提出来的,著名例子是“尿布与啤酒”。2.相关概念: 关联规则的支持度:Support(A,B)=包含A和B的事务数/事务总数 关联规则的置信度:Confidence(A,B)= 包含A和B的事务数/包含A事务数 频繁项集:项集的频率大于等于最小支持度。 强相关规则:同时满足最小支持度和最小置信度。3.关联规则挖掘的步骤: 生成频繁项集,然后生原创 2013-11-27 15:00:01 · 21314 阅读 · 0 评论