机器学习 - 概览

最新推荐文章于 2024-04-22 17:20:57 发布

GoWeiXH

最新推荐文章于 2024-04-22 17:20:57 发布

阅读量377

点赞数

分类专栏：机器学习 (ML) 文章标签：机器学习概述监督学习判别模型生成模型

本文链接：https://blog.csdn.net/weixin_37352167/article/details/84346122

版权

机器学习 (ML) 专栏收录该内容

45 篇文章 6 订阅

订阅专栏

机器学习 - 概览

（概述机器学习，且重点放在监督学习，而无监督学习与强化学习以后讨论）

定义

喜欢简练的表达，算是一个极简主义者，就像“奥卡姆剃刀原则”所说，“如无必要，勿增实体”。所以在众多的定义中我更欣赏这个：

在学习领域中，不使用明确的编程而给予计算机学习的能力。
类别

根据在训练中使用数据或策略不同，有如下分类：
- 监督学习：使用有标签（label）的数据；
- 无监督学习：使用无标签的数据；
- 半监督学习：同时使用以上两种数据，其中有标签的数据量较少；
- 强化学习：根据每次学习后的反馈进而修改，进行下一次学习；
有监督学习中的算法较丰富，无监督学习的算法大多与聚类有关，强化学习暂时还未深入学习，不太了解，但应用却很广泛，例如游戏，AlphaGo等，多用在情况较为复杂的场景中。
监督学习

形式：监督学习的任务为学习一个模型，对这个模型给定输入预测相应的输出。
模型的一般形式为 决策函数：
$Y = f (x)$
或 条件概率分布：
$P (Y ∣ X)$

根据所学的结果不同，对于监督学习可分为生成方法与判别方法，所学到的模型分别为生成模型和判别模型。模型通过方法学习得到。
- 生成方法：
1. 从已有的数据中利用先验概率，并学习联合概率分布 P(X，Y) ，而后求出 条件概率分布 P(Y|X) 作为预测的模型，称为生成模型；
2. 之所以叫生成模型，是因为模型表示了给定输入X产生输出Y的 生成关系。
3. 生成模型包括但不限于：
  
  高斯混合模型
  隐马尔可夫模型
  朴素贝叶斯分类器
  ……
- 判别方法：
1. 判别方法则由数据直接学习决策函数 f(x) 或者条件概率分布P(Y|X) 作为预测模型，此模型称为判别模型；
2. 判别方法关心的是对给定的输入X，应该预测什么样的输出Y。
3. 判别模型包括但不限于：
  
  Logistic回归（LR）
  Linear回归
  支持向量机（SVM）
  条件随机场
  神经网络
  决策树
  随机森林
  感知器
  ……
- 生成方法与判别方法对比
1. 生成方法可还原出联合概率分布P(X，Y) ，而判别模型不能；
2. 生成方法学习收敛速度更快，即当样本容量增加时，学到的模型可更快的收敛至真实模型；
3. 当存在隐变量时，仍可用生成方法学习，而判别方法不行；
4. 判别方法学的模型直接面对预测，往往学习的准确度较高；
5. 判别模型可以对数据进行各种程度的抽象、定义特征并使用特征，因此可以简化学习问题。
根据面向的问题不同，可分为分类问题、回归问题和标注问题。
- 分类问题
1. 在监督学习中，当输出变量Y的取值是有限个离散值时，预测问题则称为分类问题；
2. 此时输入变量X可以是离散的，也可以是连续的；
3. 所学的模型可称为分类器；
4. 分类问题可分为 二分类 问题与 多分类 问题；
5. 应用：例如银行判断是否贷款给一个客户；
6. 可 应用于 分类问题的模型包括但不限于：
  
  K近邻（KNN）
  K均值（K-Means）
  感知机
  朴素贝叶斯（NB）
  决策树
  Logistic回归
  支持向量机
  Boosting
  贝叶斯网络
  神经网络（NN）
  ……
- 回归问题
1. 用于预测输入变量和输出变量之间的关系；
2. 回归模型表示从输入变量到输出变量之间的映射函数；
3. 回归问题等价于函数拟合：选择一条函数曲线，使其很好的拟合已知数据（拉格朗日插值法与此相似）且很好的预测未知数据；
4. 应用：例如预测股票价格；
5. 可应用于回归问题的模型包括但不限于：
  
  Lasso回归（L₁正则化）
  Ridge回归（L₂正则化）
  ElasticNet Regression（L₁与L₂正则一起使用）
  回归树
  ……
- 标注问题
1. 标注问题是一个监督学习问题，可以认为标注问题是分类问题的一个推广。标注问题是更复杂的结构预测问题的简单形式。
2. 标注问题的输入是一个观测序列，输出的是标记序列或状态序列。
3. 标注问题的目的在于学习一个模型，使它能够对观测序列给出标记序列作为预测。
4. 需要注意的是，可能的标记个数是有限的，但其组合起来的标记序列的个数是依序列长度呈指数级增长的。
5. 标注问题分为学习合和标注两个过程。学习过程是根据数据学习得到条件概率分布模型，标注过程是根据学到的模型对新的输入观测序列找到相应的输出标记序列。
6. 可应用于标注问题的模型包括但不限于：
  
  条件随机场
  隐马尔科夫模型
  ……
无监督学习

无监督学习是在没有标签的情况下对数据进行类别划分。
大部分无监督学习是使用聚类算法。
无监督学习方法包括但不限于：

规则划分
KNN
K-Means
层次聚类
密度聚类
图论聚类
网格聚类
模型聚类
……