简单易懂的人工智能系列：常见算法介绍

最新推荐文章于 2024-08-06 11:30:30 发布

薛定谔的猫96

最新推荐文章于 2024-08-06 11:30:30 发布

阅读量2.5k

点赞数 4

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/qq_42415326/article/details/104767062

版权

机器学习专栏收录该内容

18 篇文章 2 订阅

订阅专栏

算法

算法是利用计算机解决特定问题的处理步骤，是有限操作的集合。

说明性的栗子

我们以上篇文章提到的机器学习下西洋跳棋为例，其问题描述如下：

任务T：下西洋跳棋
性能指标P：赢棋的概率
经验E：和自己对弈
确定的目标函数：V

通过将棋盘上的棋子进行评分，并将棋子所在位置和一个目标函数V建立联系，该目标函数的值可以描述当前棋局。在棋子、局面和性能标准 P 之间建立联系，然后就可以将P描述成一个和棋子、局面相关的函数，根据已有数据（经验E）去求解P中相关参数的最优解。

我们再来看一个栗子：由身高预测体重，首先我们收集了一些人的身高和体重，基于这些信息，去预测一个身高已知的人的体重。

对于身高和体重这两个变量（设身高为x，体重为y），他们之间的关系可用简单的线性关系描述：y = a x + b，根据已有的数据，求解这个线性模型中的两个参数：a 和 b，然后就可以用这个模型去预测了。然而对于两个未知参数，任意已知两条记录，即可求出参数，但是为了得到更具有普遍可信的模型，就需要尽可能的使用越多的已有数据。

我们于是将所有的样本记录数据代入y = a x + b 得到计算结果的 y’，而预测值y'与真实值y的差为预测误差，预测误差是一个关于参数a，b 的函数。我们的目的就是要找到某一组参数（a，b）使得预测误差最小。具体做法如下：

数据集和计算结果如下：

利用有限的步骤集合去求解一个特定问题，谓之算法。

机器学习算法的分类

按照学习方式不同进行分类：根据学习的样本数据不同，对求解问题有着不同的建模方式，可以分为以下三类：

有监督学习
无监督学习
半监督学习

有监督学习

有监督学习（Suoervised learning）：利用一组已知类别的样本来训练模型，使其达到性能要求。特点是输入数据（训练数据）均有一个明确的表示或者结果（标签label）。简而言之就是我们提供样例“教”计算机如何学习。

比如我们之前提到的教孩子认识猫，已知数据中每一条都有一个明确标识该动物是否是猫的标签：

然后对于一个新的没有见过的数据，根据已知学习得到的模型来判断新数据是否为猫。

分类：Classfication

分类就是通过已有数据集（训练集）的学习，得到一个目标函数f（模型），把每个属性集x映射到目标属性y（类），且 y 必须是离散的（若 y 是连续的，则属于回归算法）。通过对已知类别训练集的分析，从中发现分类规则，以此预测新数据的类别。

举个栗子，比如已有部分用户是否购买电脑的记录（如下图），据此来建模，来预测某个新用户是否购买。即分成两类：购买和不购买

这是一个二分类的问题，比如构建的模型如下（决策树）：

可见，首先关注的是用户的年龄，如果是中年，就买，如果是青少年那么还要看是否单身，而如果是老年，就看该用户的信用等级，以此模型来预测一个新用户是否会购买电脑。假如这时候来了一个新用户{ 老年，低，否，一般}，那么从模型来看，老年人信用一般，通常就会购买电脑。

回归：Regression

简而言之，回归就是分类中的 y 是连续的。举个栗子，比如我们采集了一些父子身高数据，对这些数据进行建模，然后使用模型，根据输入的新的父亲的身高去预测他儿子的身高的取值：

结合拟合的线性方程画出散点图，拟合图中可以看出样本数据的点，基本上是分布在直线附近，呈线性分布：

分类算法

分类算法通过对已知类别训练集的分析，从中发现分类规则，以此预测新数据的类别。分类算法的应用十分广泛，比如，银行风险评估，客户类别分类，文本检索和搜索引擎分类，安全领域中的入侵检测以及软件项目中的应用等。

分类算法按原理分类：

基于统计：如贝爷斯分类
基于规则：如决策树算法
基于神经网络：神经网络算法
基于距离：KNN（k近邻）

模型构建好了以后，我们要评价模型好不好，就需要用到一些常见的评估指标。

在介绍指标前必须先了解“混淆矩阵”（TP，TN，FP，FN）：

分类算法常用的评估指标有：

准确率

准确率(accuracy)计算公式为：

注：准确率是我们最常见的评价指标，而且很容易理解，就是被分对的样本数除以所有的样本数，通常来说，正确率越高，分类器越好。准确率确实是一个很好很直观的评价指标，但是有时候准确率高并不能代表一个算法就好。比如某个地区某天地震的预测，假设我们有一堆的特征作为地震分类的属性，类别只有两个：0：不发生地震、1：发生地震。一个不加思考的分类器，对每一个测试用例都将类别划分为0，那那么它就可能达到99%的准确率，但真的地震来临时，这个分类器毫无察觉，这个分类带来的损失是巨大的。为什么99%的准确率的分类器却不是我们想要的，因为这里数据分布不均衡，类别1的数据太少，完全错分类别1依然可以达到很高的准确率却忽视了我们关注的东西。再举个例子说明下。在正负样本不平衡的情况下，准确率这个评价指标有很大的缺陷。比如在互联网广告里面，点击的数量是很少的，一般只有千分之几，如果用acc，即使全部预测成负类（不点击）acc也有 99% 以上，没有意义。因此，单纯靠准确率来评价一个算法模型是远远不够科学全面的