《机器学习实战》学习笔记(一)
“数据挖掘十大算法”(2007.12-Journal of Knowledge and Information System)
1. C4.5决策树
2. K-mean(k-均值)
3. 支持向量机(SVM)
4. Apriori
5. 最大期望算法(EM)
6. PageRank算法
7. AdaBoost算法
8. K-近邻算法(kNN)
9. 朴素贝叶斯算法(NB)
10. 分类回归树算法(CART)
本书并未讲解EM算法和PageRank算法,原因:Google引入的PageRank算法在很多著作中均有充分的论述,这里不在累述;而最大期望算法(EM)涉及太多的数学知识,无法简化讲解。
本书的结构:4大部分15章节+4个附录
Ⅰ 分类(1-7章):
①介绍了机器学习的基础知识,如何使用机器学习算法进行分类;
②介绍K-邻近算法;
③介绍决策树;
④使用概率分布算法进行分类以及朴素贝叶斯算法;
⑤介绍Logistic回归算法,引入算法优化的主题,如何处理数据集合中的缺失值;
⑥支持向量机;
⑦AdaBoost集成方法。
Ⅱ 利用回归预测数值型数据(8-9章):
⑧讨论回归、去噪和局部加权线性回归,偏差方差折中问题;
⑨讨论基于树的回归算法和分类回归树(CART)算法。
Ⅲ 无监督学习(10-12章):
⑩K-均值聚类算法;
⑪用于关联分析的Apriori算法;
⑫如何使用FP-Growth算法改进关联分析。
Ⅳ 其他工具(13-15章):
⑬⑭引用的数学工具用于消除数据噪声,分别时主成分分析和奇异值分解;
⑮分布式计算的概念,MapReduce 架构。
PS:
代码下载网址:www.manning.com/MachineLearninginAction