参考资料有 andrew ng cs229, 小象学院邹博的HMM
andrew NG cs229,
翻译一下,我们怎么样应用机器学习技术,去应用到 那些数据(to data),这些数据被表示成为了 “观测值” 在时间上的序列?
例如,我可能会对语音识别*,也就是说,语音的录音是观测值 ,而原始的文本是 隐状态 。
(自己理解,我们现在知道了观测值了,现在要求 隐状态序列 ,这就是HMM的三个基本问题之一啊~)
或者是做part-of-speech , 词性标注。
where we wish to reover a series of states from a series of observations.
或者是中文分词。
observations 是具体的词
而 hidden state 是词是“初始词““结束词““中间词““单字成词“
这样,如果我们有了一个HMM模型,能够根据 一个词的序列
得到了隐状态序列,我们在隐状态是”结束词“的地点画一条线,不就能得到分词了嘛?!
这是让我特别震撼的地方
通过中文分词的例子,让我对模型有了更深的理解。
Z1, Z2,...Zn 是不可观测的;我们只观测到了x1, x2, ..xn
说的非常好,SVM, dicision tree 是discrimitive model, hmm 是生成模型,LDA
需要三个矩阵来描述HMM, A,B,
这三个是HMM的参数:
这个隐藏的状态必须是离散的
A是 状态转移概率矩阵,隐藏状态必须是离散的~
B是发射矩阵, 其实B也可以是个高斯分布,就看我们怎么建模了~~
是初始隐状态的的概率分布
综上所述,HMM 由三套参数来决定