机器学习实战-简要笔记1

最新推荐文章于 2024-04-22 22:51:30 发布

lixg88888888

最新推荐文章于 2024-04-22 22:51:30 发布

阅读量221

点赞数

分类专栏： AI

本文链接：https://blog.csdn.net/lixg88888888/article/details/79144467

版权

AI 专栏收录该内容

14 篇文章 0 订阅

订阅专栏

本文是对《机器学习实战》的简要笔记，涵盖了机器学习基础、K-近邻算法、决策树和朴素贝叶斯分类。介绍了监督与无监督学习的概念，K-近邻算法的优缺点及应用，决策树的构建过程及其特点，以及朴素贝叶斯分类在文本分类和垃圾邮件过滤中的应用。

摘要由CSDN通过智能技术生成

学习了一段时间的《机器学习实战》，有所收获，简要总结如下。

书中的源码是是基于python2编写的，我手动敲了一遍，每行加了注释，在python3.4.4中调试通过，github链接：https://github.com/ldgang0530/MLA

第一章机器学习基础

机器学习了横跨计算机科学、工程技术、统计学等多个学科，简单地说就是把无序的数据转换为有用的信息，通过分析训练样本数据，找到规律，进而可以对未知数据进行分类或预测。机器学习有两项重要的任务：分类和回归。分类是将实例数据划分到合适的类别；回归则主要用于预测数值型数据。

分类和回归属于监督学习，这类算法必须知道预测什么，即目标变量的分类信息。与之相对的是无监督学习，这类学习方法没有的类别信息，也不会给定目标值。在无监督学习中，将数据集合分成类似的对象组成的多个类的过程称为聚类；将寻找描述数据统计值的过程称为密度估计。

至于如何选择合适的算法：1，首先考虑使用机器学习算法的目的。若是预测目标变量的值，选择监督学习方法，而如果没有目标变量，就选择无监督学习方法。对于监督学习，如果是离散的选择分类算法，如果是连续的则属于回归问题。对于无监督学习，如果只是需要将数据划分为离散的组，使用聚类，如果需要估计数据与每个分组的相似程度，则需要密度估计算法。2，数据问题，是离散还是连续，是否有缺失值，是否有异常等。

开发机器学习应用程序的步骤：

（1）收集数据

（2）准备输入数据

（3）分析输入数据

（4）训练算法。无监督学习算法不需要训练算法，因为其没有目标变量值

（5）测试算法

（6）使用算法

第2章 K-近邻算法

K-近邻算法是采用测量不同特征值之间的距离方法进行分类。工作原理：已知训练样本集，这些样本集中每个数据都存在类别标签。首先计算新数据的每个特征与样本集中数据对应的特征进行比较，然后提取样本集中特征最相似数据的分类标签。选择最相似的K个样本数据，然后统计这K个相似数据中出现次数最多的分类，作为新数据的分类。

经分析工作原理，可知:K近邻算法必须保存全部的数据集，占用大量的存储空间，同时必须对每个数据集都计算距离值，使用时较为耗时。从“选择k个数据中出现最多的分类”表明每个样本数据的权重是相同的。在计算距离时，注意数据是否需要归一化，以免因不同属性之间的差别过大，而导致不同属性对结果影响不同。该方法还有一个缺点就是，它无法给出任何数据的基础结构信息，无法知道平均实例样本与典型实例样本具有什么特征。

K-近邻算法优缺点：

优点：精度高、对异常值不敏感、无数据输入假定

缺点：计算复杂度高、空间复杂度高

适用范围：数值型和标称型

示例：使用K-近邻算法改进约会网站的配对效果

示例：手写识别系统

第3章决策树

K-近邻算法可以解决很多问题，但没有办法给出数据的内在含义，决策树的主要优势就在于数据形式非常容易理解。

决策树的具体做法是：根据不同的属性值进行划分，直到划分的结果满足要求为止。如下图，摘自《机器学习实战》