采用书籍《机器学习实战》,人民邮电出版社,2013年6月第1版。关于机器学习实战的博客已经有很多,所以本博文仅将书中的知识点进行整理和扩展。
关于本书
本书讲述重要的机器学习算法,尽量减少讨论数学理论,更多地讨论如何编码实现机器学习算法,介绍那些使用这些算法的应用和工具,以及如何在实际环境中使用它们。
读者对象
这本书适合有数据需要处理的读者,也适合于想要获得并理解数据的读者。如果读者有一些编程概念(比如递归),并且了解一些数据结构(比如树结构),那么将有助于本书的阅读。
数据挖掘十大算法
本书内容也是来源于数据——“数据挖掘十大算法”是IEEE数据挖掘国际会议(ICDM)上的一篇论文,2007年12月在Journal of Knowledge and Information Systems杂志上发表。依据知识发现和数据挖掘国际会议(KDD)获奖者的问卷调查结果,论文统计出排名前十的数据挖掘算法。
论文选出的机器学习算法包括:C4.5决策树、K-均值(K-mean)、支持向量机(SVM)、Apriori、最大期望算法(EM)、PageRank算法、AdaBoost算法、k-近邻算法(kNN)、朴素贝叶斯算法(NB)和分类回归树(CART)算法。本书包含了其中的8个算法,没有包括最大期望算法和PageRank算法。本书没有包括PageRank算法,是因为搜索引擎巨头Google引入的PageRank算法已经在很多著作里得到了充分的论述,没有必要进一步累述;而最大期望算法没有纳入,是因为涉及太多的数学知识,如果它像其他算法那样简化成一章,就无法讲述清楚算法的核心,有兴趣的读者可以参阅相关材料。
本书结构
第一部分 分类
机器学习的基础知识、k-近邻、决策树、概率分布算法和朴素贝叶斯、Logistic回归、支持向量机(SVM)、Adaboost集成方法第二部分 利用回归预测数值型数
回归、去噪和局部加权线性回归、基于树的回归和分类算法——分类回归树(CART)- 第三部分 无监督学习
K-均值聚类算法、用于关联分析的Apriori算法、FP-Grow算法 - 第四部分 其他工具
主成分分析(PCA)、奇异值分解(SVD)、MapReduce
示例
本书的许多示例演示了如何在现实世界中使用机器学习算法,通常我们按照下面的步骤保证算法应用的正确性:
- 确保算法应用可以正确处理简单的数据;
- 将现实世界中得到的数据格式化为算法可以处理的格式;
- 将步骤2得到的数据输入到步骤1的算法中,检验算法的运行结果。
千万不要忽略前两个步骤而直接跳到步骤3来检验算法处理真实数据的效果。
代码约定和下载
本书所有源代码均可在英文版出版商的网站上下载:Manning-Machine learning in action
读者也可以访问图灵社区本书页面提交勘误或下载源代码:图灵社区-机器学习实战