《机器学习实战》之基础

最新推荐文章于 2022-09-11 16:00:27 发布

行路者-慢慢来

最新推荐文章于 2022-09-11 16:00:27 发布

阅读量177

点赞数

分类专栏：人工智能机器学习实战

本文链接：https://blog.csdn.net/qq_28069577/article/details/92645133

版权

人工智能同时被 2 个专栏收录

15 篇文章 0 订阅

订阅专栏

机器学习实战

6 篇文章 0 订阅

订阅专栏

何为机器学习

机器学习就是把无序的数据转换成有用的信息

机器学习的主要任务

监督学习：特点必须知道目标变量的分类信息。常用的就是分类和回归问题
无监督学习：特点不会给定目标值，数据是没有类别信息，常用的就是聚类

监督学习的用途
k-近邻算法	线性回归
朴素贝叶斯	局部加权线性回归
支持向量机	Ridge回归
决策树	Lasso最小回归系数估计

无监督学习的用途
K-均值	最大期望算法
DBSCAN	Parzen窗设计

可以看出很多算法都可以用于解决同样的问题，那么选择算法就是个老大难的关键问题了呀！！！！

如何选择合适算法

在选择实际可用的算法，必须考虑下面两个问题：一使用机器学习算法的目的，想要算法完成何种任务；二需要分析或者收集的数据是什么

使用算法的目的：如果想要预测目标变量的值，则可以选择监督学习算法，否则可以选择无监督学习算法，确定选择监督学习算法之后，需要进一步确定目标变量类型，如果目标变量是离散型，则可以选择分类器算法；如果目标变量是连续型的数值，则需要选择回归算法。

开发机器学习应用程序的步骤

(1) 收集数据。我们可以使用很多方法收集样本数据，如：制作网络爬虫从网站上抽取数据、
从RSS反馈或者API中得到信息、设备发送过来的实测数据（风速、血糖等）。提取数据的方法非
常多，为了节省时间与精力，可以使用公开可用的数据源。
(2) 准备输入数据。得到数据之后，还必须确保数据格式符合要求，本书采用的格式是Python
语言的List。使用这种标准数据格式可以融合算法和数据源，方便匹配操作。本书使用Python语
言构造算法应用，不熟悉的读者可以学习附录A。
此外还需要为机器学习算法准备特定的数据格式，如某些算法要求特征值使用特定的格式，
一些算法要求目标变量和特征值是字符串类型，而另一些算法则可能要求是整数类型。后续章节
我们还要讨论这个问题，但是与收集数据的格式相比，处理特殊算法要求的格式相对简单得多。
(3) 分析输入数据。此步骤主要是人工分析以前得到的数据。为了确保前两步有效，最简单
的方法是用文本编辑器打开数据文件，查看得到的数据是否为空值。此外，还可以进一步浏览数
据，分析是否可以识别出模式；数据中是否存在明显的异常值，如某些数据点与数据集中的其他
值存在明显的差异。通过一维、二维或三维图形展示数据也是不错的方法，然而大多数时候我们
得到数据的特征值都不会低于三个，无法一次图形化展示所有特征。本书的后续章节将会介绍提
炼数据的方法，使得多维数据可以压缩到二维或三维，方便我们图形化展示数据。
这一步的主要作用是确保数据集中没有垃圾数据。如果是在产品化系统中使用机器学习算法
并且算法可以处理系统产生的数据格式，或者我们信任数据来源，可以直接跳过第3步。此步骤
需要人工干预，如果在自动化系统中还需要人工干预，显然就降低了系统的价值。
(4) 训练算法。机器学习算法从这一步才真正开始学习。根据算法的不同，第4步和第5步是
机器学习算法的核心。我们将前两步得到的格式化数据输入到算法，从中抽取知识或信息。这里
得到的知识需要存储为计算机可以处理的格式，方便后续步骤使用。
如果使用无监督学习算法，由于不存在目标变量值，故而也不需要训练算法，所有与算法相
关的内容都集中在第5步。