机器学习(4)——其他问题
一、隐马尔可夫模型
- 一个关于时序的概率模型,描述由隐马尔可夫链随机生成观测序列的过程,属于生成模型。
- 隐马尔可夫模型在语音识别、自然语言处理、生物信息等领域有着广泛的应用
- 隐马尔可夫模型λ=(A,B,π),状态转移概率矩阵A,初始状态概率向量π,确定了隐藏的马尔可夫链,生成不可观测的状态序列。观测概率矩阵B确定了如何从状态生成观测,与状态序列综合确定了如何产生观测序列
- 两个重要假设
- 其次马尔可夫性假设:假设隐藏的马尔可夫链在任意时刻t的状态只依赖于其前一时刻的状态,与其他时刻的状态及观测无关,也与时刻t无关
- 观测独立性假设:假设任意时刻的观测只依赖于该时刻的马尔可夫链的状态,与其他观测及状态无关
- 三个基本问题
- 概率计算问题,给定模型λ=(A,B,π)和观测序列O=(o1,o2,…,oT),计算在模型λ下观测序列O出现的概率P=(O|λ)
- 学习问题,已知观测序列O=(o1,o2,…,oT)估计模型λ=(A,B,π)参数,使得在该模型下观测序列概率P=(O|λ)最大
- 预测问题,已知模型λ=(A,B,π)和观测O=(o1,o2,…,oT),求对给定观测序列条件概率P=(I|O)最大的状态序列。即给定观测序列,求最有可能的对应的状态序列
二、CRF条件随机场
- 一个序列标注模型,其优点在于为一个位置进行标注的过程中可以利用丰富的内部及上下文特征信息
- 应用场景
- 分词(标注字的词位信息,由字构词)
- 词性标注(标注粉刺的词性,如:名词,动词,助词)
- 命名实体识别(识别人名,地名,机构名,商品名等具有一定内在规律的实体名词)
三、LDA主题模型
- 一种文档主题生成模型,是一种非监督机器学习技术。通过模拟文档生成过程,可以用来识别大规模文档集或语料库中潜藏的主题信息
四、生成模型V.S.判别模型
监督学习方法可分为两大类,生成方法与判别方法,他们所学到的模型成为生成模型与判别模型
生成方法特点
- 从统计的角度表示数据的分布情况,能够反映同类数据本身的相似度
- 生成方法还原出联合概率分布,而判别方法不能
- 生成方法的学习收敛速度更快,即当样本容量增加时,学到的模型可以更快地收敛于真实模型
- 当存在隐变量时,仍然可以用生成方法学习,此时判别方法不能用
判别方法特点
- 判别方法寻找不同类别之间的最优分类面,反映的是异类数据之间的差异
- 判别方法利用了数据训练的类别标识信息,直接学习的是条件概率P(Y|X)或者决策函数f(x),直接面对预测,往往学习的准确率更高
- 由于直接学习条件概率P(Y|X)或者决策函数f(x),可以对数据进行各种程度上的抽象、定义特征并使用特征,因此可以简化学习问题
- 缺点是不能反映训练数据本身的特性