最近在拜读李航老师的《统计学习方法》一书,由于前面有些基础,所以对于前9章的学习感觉并不吃力。但是,当学习到第10-11章之后,倍感吃力。
标注问题是对我来说是个比较新鲜的问题,只知道是用在自然语言识别上的方法,具体的并不了解。一开始一直纠结在对下个单词的预测上,实则不是,标注问题根本解决的是对一个自然语句进行词性的标注。
隐马尔可夫模型(Hidden Markov Model, HMM)相对比较容易理解,就是一个初始矩阵、状态转移矩阵和观察矩阵。模型的一系列参数就是对应的这三个矩阵中的参数,参数的数目呈指数型增长。初始矩阵就是num(S)*1个参数需要被估计。状态矩阵就有num(S)*num(S)个参数需要被估计。观察矩阵是有num(S)*num(observe)个参数需要被估计。所以就提出了前向-后向算法进行概率的估计。
关于条件随机场对我来说难度比较大,需要我下一些功夫进行学习了。