整理整理最近的学习心得,理论和实践各写一文。本文是对理论的整理。
主要知识来自于以下两本书
1.《数据挖掘基础教程》(印)K.P.Soman Shyam Diwakar
2.《数据挖掘技术 -- 市场营销、销售与客户关系管理领域应用》(美)Michael J.A.Berry
先做个简单的评价,
第1本书的亮点是决策树那章,这是我见到的书中讲得最详细的。
第2本书的亮点是人工神经网络那章,这是我见到的书中讲得最详细的。另外,第二本书提供了大量实例,概念的描述依托于这些实例。这使得理解变得很容易。
现在,开始做内容整理。
@协同过滤
为什么要使用协同过滤?最前提的假设是,寻找信息的人应当能利用人们已经发现和评估的信息。
@数据挖掘的挑战
算法的并行式版本,分布式版本,非内存版本
@数据挖掘的主要类型
类型1-分类学习
分类学习的输出形式: 决策树、神经网路、规则
类型2-关联学习
类型3-聚类
聚类的输出形式: