机器学习——统计学习方法分类


统计学习方法三要素:模型、策略、算法

分类一

生成模型

生成方法有数据学习联合概率分布 P ( X , Y ) P(X,Y) P(X,Y),然后求出条件概率分布 P ( Y ∣ X ) P(Y|X) P(YX) 作为预测的模型,即生成模型:
P ( Y ∣ X ) = P ( X , Y ) P ( X ) P(Y|X)=\frac{P(X,Y)}{P(X)} P(YX)=P(X)P(X,Y)典型的生成模型有:不素贝叶斯法、隐马尔可夫模型。

生成方法可以还原出联合概率分布 P ( X , Y ) P(X,Y) P(X,Y),而判别方法则不能。生成方法的学习收敛速度更快,即当样本容量增加时,学到的模型可以更快地收敛于真实模型;当存在隐变量时,仍可以用生成方法学习,此时判别方法就不能用。

判别模型

判别方法由数据直接学习决策函数 f ( X ) f(X) f(X) 或者条件概率分布 P ( Y ∣ X ) P(Y|X) P(YX) 作为预测的模型,即判别模型。典型的判别模型包括: k k k 近邻法、感知机、决策树、逻辑斯蒂回归模型、最大熵模型、支持向量机、提升方法、条件随机场。

判别方法直接学习的是条件概率 P ( Y ∣ X ) P(Y|X) P(YX) 或决策函数 f ( X ) f(X) f(X),直接面对预测,往往学习的准确率更高;由于直接学习 P ( Y ∣ X ) P(Y|X) P(YX) f ( X ) f(X) f(X),可以对数据进行各种程度上的抽象、定义特征并使用特征,因此可以简化学习问题。

分类二

分类问题

当输出变量 Y Y Y 取有限个离散值时,预测的问题称为分类问题。输入变量 X X X 可以是离散的,也可以是连续的。当分类的类别是多个时,称为多分类问题;只有正负两个类时,称为二分类问题

许多统计学习的方法可以用于分类,例如: k k k 近邻法、感知机、朴素贝叶斯法、决策树、逻辑斯蒂回归模型、支持向量机、提升方法、神经网络等。

标注问题

标注问题的输入是一个观测序列,输出是一个标记序列或状态序列。标注问题的目标在于学习一个模型,使它能够观测序列给出标记序列作为预测。

标注常用的统计学习方法有:隐马尔可夫模型、条件随机场。

回归问题

回归用于预测输入变量与输出变量之间的关系,特别是当输入变量的值发生变化时,输出变量的值随之发生的变化。回归问题按照输入变量的个数,分为一元回归多元回归;按照输入变量和输出变量之间关系的类型,可分为线性回归非线性回归
回归问题常用的统计学习方法有:线性回归模型、SVR 等。

分类三

监督学习

用带有标签(label)和特征的训练数据集来训练的机器学习模型。

非监督学习

用只有特征没有标签的数据集进行训练。

半监督学习

用于训练的数据集中一部分有标签,一部分没有。

强化学习

用于训练的数据中没有标签,而是用“奖励“”来替代。

参考文献

[1] 李航. 统计学习方法. 清华大学出版社. 2012

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值