全部笔记的汇总贴:统计学习方法读书笔记汇总贴
一、监督学习算法
二、各种方法的特点及其关系
(一)适用问题
- 感知机、k近邻法、朴素贝叶斯法、决策树是简单的分类方法,具有模型直观、方 法简单、实现容易等特点。
- 逻辑斯谛回归与最大熵模型、支持向量机、提升方法是更复杂但更有效的分类方法,往往分类准确率更高。
- 隐马尔可夫模型、条件随机场是主要的标注方法。通常条件随机场的标注准确率更高。
(二)模型
- 朴素贝叶斯法、隐马尔可夫模型是概率模型。
- 感知机、k近邻法、支持向量机、提升方法是非概率模型。
- 而决策树、逻辑斯谛回归与最大熵模型、条件随机场既可以看作是概率模型,又可以看作是非概率模型。
(三)学习策略
- 在二类分类的监督学习中,支持向量机、逻辑斯谛回归与最大熵模型、提升方法 各自使用合页损失函数、逻辑斯谛损失函数、指数损失函数。
- 支持向量机用 L 2 L_2 L2范数表示模型的复杂度。原始的逻辑斯谛回归与最大熵模型没有正则化项,可以给它们加上 L 2 L_2 L2范数正则化项。提升方法没有显式的正则化工页,通常通过早停止的方法达到正则化的效果。
- 概率模型的学习可以形式化为极大似然估计或贝叶斯估计的最大后验概率估计。
- 决策树学习的策略是正则化的极大似然估计,损失函数是对数似然损失,正则化项是决策树的复杂度。
- 逻辑斯谛回归与最大熵模型、条件随机场的学习策略既可以看成是极大似然估计(或正则化的极大似然估计),又可以看成是极小化逻辑斯谛损失(或正则化的逻辑斯谛损失)。
- 朴素贝叶斯模型、隐马尔可夫模型的无监督学习也是极大似然估计或最大后验概率估计,但这时模型含有隐变量。
(四)学习算法
- 朴素贝叶斯法与隐马尔可夫模型的监督学习,最优解即极大似然估计值,可以由概率计算公式直接计算。
- 感知机、逻辑斯谛回归与最大熵模型、条件随机场的学习利用梯度下降法、拟牛顿法等。这些都是一般的无约束最优化问题的解法。
- 支持向量机学习,可以解凸二次规划的对偶问题。有序列最小最优化算法等方法。
- 决策树学习是基于启发式算法的典型例子。可以认为特征选择、生成、剪枝是启发式地进行正则化的极大似然估计。
- 提升方法利用学习的模型是加法模型、损失函数是指数损失函数的特点,启发式地从前向后逐步学习模型,以达到逼近优化目标函数的目的。
- EM算法是一种选代的求解含隐变量概率模型参数的方法,它的收敛性可以保证,但是不能保证收敛到全局最优。
- 支持向量机学习、逻辑斯谛回归与最大熵模型学习、条件随机场学习是凸优化问题,全局最优解保证存在。而其他学习问题则不是凸优化问题。
三、总结
下一章传送门:统计学习方法读书笔记(十三)-无监督学习概述