生成模型、判别模型、分类问题、标注问题、回归问题
监督学习方法
- 生成方法
- 判别方法
所学习到的模型分别称为 生成模型 和 判别模型
生成模型
生成方法`由数据学习联合概率分布 P(X,Y),然后求出条件概率分布 P(Y|X) 作为预测的模型,即生成模型
模型表示给定了输入X产生输出Y的生成关系
典型的生成模型:
- 朴素贝叶斯
- 隐马尔可夫模型
特点:
- 生成方法可以还原出联合概率分布(判别方法做不到)
- 学习收敛速度更快。当样本容量增加时,学习的模型可以更快的收敛
- 当存在隐变量时,可以用生成方法学习(不能用判别方法)
判别模型
判别方法`由数据直接学习决策函数 f(X) 或者条件概率分布 P(Y|X)作为预测的模型,即判别模型。判别方法关心的是对给定的输入X,应该预测什么样的输出Y
典型的判别模型:
- K近邻
- 感知机
- 决策树
- 逻辑斯谛回归
- 最大熵模型
- 支持向量机
- 提升方法
- 条件随机场
特点:
- 直接学习条件概率或决策函数,直接面对预测,学习的准确率更高
- 由于直接学习条件概率或决策函数,可以对数据进行各种程度上的抽象、定义特征并使用特征,因此可以简化学习问题
分类问题
可用于分类问题的统计学习方法:
- k近邻
- 感知机
- 朴素贝叶斯
- 决策树
- 决策列表
- 逻辑斯谛回归
- 支持向量机
- 提升方法
- 贝叶斯网络
- 神经网络
标注问题
标注问题的输入是一个观测序列,输出是一个标记序列或状态序列
常用的统计学习方法:
- 隐马尔可夫
- 条件随机场
标准问题在信息抽取、自然语言处理等领域应用广泛,是这些领域的基本问题
回归问题
用于预测输入变量和输出变量之间的关系。等价于函数拟合(选择一条函数曲线使其很好地拟合已知数据,且很好的预测未知数据)
根据输入变量和输出变量之间的关系,可以分为 线性回归 和 非线性回归