机器学习实战绪论-CSDN博客

本文链接：https://blog.csdn.net/qq_46663231/article/details/112625231

机器学习实战绪论

机器学习时什么，谁需要使用机器学习算法，简而言之，机器学习可以揭示数据背后的真实含义，这本书适合有数据需要处理的读者，也适合于想要获得并理解数据的读者。如果读者有一些编程概念，并且了解一些数据结构，那么将有助于本书的阅读。即使不具备线性代数和概率论的知识，也能从书中获益，但是如果读者有线性代数和概率论的基础，也会有利于本书的阅读。此外，本书使用python编程，它过去也被称为“可执行的伪代码”。本书假定有一些基本的python编程知识，不过不知道如何使用python也没有关系，只要具备基础的编程思想，学习python也不困难。

数据挖掘十大算法
数据以及基于数据做出决策是非常重要的，本书内容也来源于数据，数据挖掘十大算法是ieee数据挖掘国际会议上的一篇论文，2007年12月在杂志上发表。依据知识发现和数据挖掘国际会议获奖者的问卷调查结果，论文就统计出排名前十的数据挖掘算法。本书的基本框架与论文中提到的算法基本一致。聪明的读者可能已经注意到，虽然论文只给出了十个重要的数据挖掘算法，但是本书却有十五章，下面我会给出解释，这里我们先看看排名前十的数据挖掘算法。论文选出的机器学习算法包括：决策树、k均值、支持向量机、最大期望算法、apriori、pagerank算法、adaboost算法、k近邻算法、朴素贝叶斯算法、分类回归树算法。本书包含了其中的8个算法，没有包括最大期望算法和算法。

第一部分分类

本书并没有按照数据挖掘十大算法的次序来介绍机器学习算法。第一部分首先介绍了机器学习的基础知识，然后讨论如何使用机器学习算法来进行分类。第二章介绍了基本的机器学习算法：k近邻算法。第三章是本书第一次讲述决策树。第四章讨论如何使用概率分布算法进行分类以及朴素贝叶斯算法。第五章介绍的logistic回归算法虽然不在排名前十的列表中，但是引入了算法优化的主题，也是非常重要的，这一张最后还讨论了如何处理数据集合中的缺失值。第六章讨论了强大而流行的支持向量机。第七章讨论 adaboost集成算法，这一章还讨论了训练样本非均匀分布时所引发的非均衡分类问题。

第二部分利用回归预测数值型数据

第二部分包括两章，讨论连续性数值的回归预测问题。第八章主要讨论了回归、去噪和局部加权回归，此外还讨论了机器学习算法必须考虑的偏差分析折中问题。第九章讨论了基于树的回归算法和分类回归树算法。

第三部分无监督学习

前两部分讨论的监督学习需要知道目标值，简单的说就是知道在数据中寻找什么，而第三部分开始讨论的无监督学习则无需知道搜寻的目标，只需要知道从算法程序中得到这些数据的共同特征。第十章讨论的无监督学习算法是k均值聚类算法，第十一章研究用于关联分析的apriori算法，第十二章他哦呵论如何使用FP-Growth算法进行关联分析。

第四部分其他工具
本书的第四部分介绍机器学习算法使用到的附属工具，13和14🐾引入的两个数学运算工具消除数据噪声，分别是主成分分析和奇异值分析。一但机器学习算法处理的数据集扩张到无法在一台计算机上完全处理时，就必须引入分布式计算的概念，本书最后一章将介绍Mapreduce架构。