《数学之美》阅读笔记(持续更新……)

第5章:隐含马尔科夫模型HMM

  1. 通信的本质就是一个编解码和传输的过程。NLP对应通信系统中的解码问题。即在已知接收端的观测信号 o 1 , o 2 , . . . o_1,o_2,... o1,o2,...的情况下,推断出令条件概率 P ( s 1 , s 2 , . . . ∣ o 1 , o 2 , . . . ) P(s_1,s_2,...|o_1,o_2,...) P(s1,s2,...o1,o2,...)达到最大值的那个信息串 s 1 , s 2 , . . . s_1,s_2,... s1,s2,...也就是信号源发送的信息。 (5-1) s 1 , s 2 , . . . = A r g max ⁡ a l l s 1 , s 2 , . . . P ( s 1 , s 2 , . . . ∣ o 1 , o 2 , . . . ) = A r g max ⁡ a l l s 1 , s 2 , . . . P ( o 1 , o 2 , . . . ∣ s 1 , s 2 , . . . ) P ( s 1 , s 2 , . . . ) P ( o 1 , o 2 , . . . ) ⇔ A r g max ⁡ a l l s 1 , s 2 , . . . P ( o 1 , o 2 , . . . ∣ s 1 , s 2 , . . . ) P ( s 1 , s 2 , . . . ) s_1,s_2,...=Arg\max_{all s_1,s_2,...} P(s_1,s_2,...|o_1,o_2,...)=Arg\max_{all s_1,s_2,...} \frac{P(o_1,o_2,...|s_1,s_2,...)P(s_1,s_2,...)}{P(o_1,o_2,...)}\\\Leftrightarrow Arg\max_{all s_1,s_2,...} P(o_1,o_2,...|s_1,s_2,...)P(s_1,s_2,...)\quad \tag{5-1} s1,s2,...=Argalls1,s2,...maxP(s1,s2,...o1,o2,...)=Argalls1,s2,...maxP(o1,o2,...)P(o1,o2,...s1,s2,...)P(s1,s2,...)Argalls1,s2,...maxP(o1,o2,...s1,s2,...)P(s1,s2,...)(5-1)
  2. 随机过程有2个维度的不确定性,其一是每个状态 s t s_t st都是随机的,其二是任一状态 s t s_t st的取值都可能和周围其他状态相关 P ( s 1 , s 2 , . . . ) = ∏ t P ( s t ∣ s 1 , s 2 , . . . , s t − 1 ) P(s_1,s_2,...)=\prod_tP(s_t|s_1,s_2,...,s_{t-1}) P(s1,s2,...)=tP(sts1,s2,...,st1)
  3. 马尔科夫提出了上述的简化假设,随机过程中每个状态 s t s_t st的概率分布只与它的前一个状态 s t − 1 有 关 s_{t-1}有关 st1,即 P ( s t ∣ s 1 , s 2 , . . . , s t − 1 ) = P ( s t ∣ s t − 1 ) P(s_t|s_1,s_2,...,s_{t-1})=P(s_t|s_{t-1}) P(sts1,s2,...,st1)=P(stst1),符合该假设的随机过程称为马尔科夫过程(马尔科夫链)。 (5-2) P ( s 1 , s 2 , . . . ) = ∏ t P ( s t ∣ s t − 1 ) P(s_1,s_2,...)=\prod_tP(s_t|s_{t-1})\tag{5-2} P(s1,s2,...)=tP(stst1)(5-2)
  4. 鲍姆提出隐含马尔可夫模型:基于马尔科夫假设和独立输出假设(模型在每时刻t会输出一个符号 o t o_t ot,并且 o t o_t ot只与 s t s_t st相关)。 (5.3) P ( o 1 , o 2 , . . . ∣ s 1 , s 2 , . . . ) = ∏ t P ( o t ∣ s t ) P(o_1,o_2,...|s_1,s_2,...)=\prod_tP(o_t|s_t)\tag{5.3} P(o1,o2,...s1,s2,...)=tP(otst)(5.3)则某个状特定的状态序列 s 1 , s 2 , . . . s_1,s_2,... s1,s2,...产生出输出符号 o 1 , o 2 , . . . o_1,o_2,... o1,o2,...的概率为 (5-4) P ( s 1 , s 2 , . . . , o 1 , o 2 , . . . ) = ∏ t P ( s t ∣ s t − 1 ) P ( o t ∣ s t ) P(s_1,s_2,...,o_1,o_2,...)=\prod_tP(s_t|s_{t-1})P(o_t|s_t)\tag{5-4} P(s1,s2,...,o1,o2,...)=tP(stst1)P(otst)(5-4)将式(5-2)(5-3)代入(5-1)中,则得到(5-4)!!!因此,通信的解码问题就可以用隐含马尔科夫模型解决。应用:语言识别、机器翻译、拼写纠错、基因序列分析、股票预测……
  5. 训练算法,即给定足够多的观测数据,如何估计隐含马尔科夫模型的参数?(1)有监督训练,效果好,但是需要大量人工标注的数据;(2)无监督训练,鲍姆-韦尔奇算法,每一次迭代都是不断估计新的模型参数,使得输出概率(我们的目标函数)最大化,该过程称为期望值最大化(EM过程)。
  6. 解码算法,即给定一个模型和某个特定的输出序列,如何找出最可能产生这个输出的序列状态?=>维特比算法

第6章:信息的度量和作用

  1. 信息量等于不确定性的大小。
  2. 自信息:一件不太可能的事发生,要比一件非常可能的事发生,提供更多的信息 I ( x ) = − l o g P ( x ) I(x)=-logP(x) I(x)=logP(x)
  3. 信息熵:量化整个概率分布中的不确定性总量 H ( X ) = − ∑ x P ( x ) l o g P ( x ) H(X)=-\sum_xP(x)logP(x) H(X)=xP(x)logP(x)
  4. 信息的作用在于消除不确定性。NLP的大量问题就是寻找相关的信息。
  5. "相关"的信息(如上下文)能够消除不确定性 H ( X ) ≥ H ( X ∣ Y ) H(X)\ge H(X|Y) H(X)H(XY)当获取的信息与所研究的事物毫无关系时等号成立。
  6. 互信息:衡量两个随机事件的相关性 I ( X ; Y ) = ∑ x ∈ X , y ∈ Y P ( x , y ) l o g P ( x , y ) P ( x ) P ( y ) I(X;Y)=\sum_{x\in X,y\in Y}P(x,y)log\frac{P(x,y)}{P(x)P(y)} I(X;Y)=xX,yYP(x,y)logP(x)P(y)P(x,y)【应用】:解决翻译中二义性问题,如bush既是美国总统布什的名字,也表灌木丛。首先从大量文本中找出和布什一起出现的互信息最大的一些词,像总统、美国、国会,同样找出和灌木丛一起出现的互信息最大的词,像土壤、植物等。然后在翻译bush时看看上下文中哪一类相关的词多就可以了。
  7. 相对熵:衡量两个取值为正的函数的相似性 K L ( f ( x ) ∣ ∣ g ( x ) ) = ∑ x ∈ X f ( x ) l o g f ( x ) g ( x ) KL(f(x)||g(x))=\sum_{x \in X}f(x)log\frac{f(x)}{g(x)} KL(f(x)g(x))=xXf(x)logg(x)f(x)【应用】:衡量两个常用词(在语法和语义上)在两个不同文本中的概率分布,看是否同义;计算词频率-逆向文档频率(TF-IDF)

第23章:上帝的算法-期望最大化算法EM

  1. EM算法只需要足够的训练数据,定义一个最大化函数,剩下的交给计算机迭代训练就可以了。
  2. E过程:期望值计算过程
  3. M过程:重新计算模型参数,以最大化期望值
  4. EM算法保证算法收敛到局部最优点。如果目标函数是凸函数,则能收敛到全局最优点。

第24章:贝叶斯网络–马尔可夫链的扩展

  1. 提出背景:现实生活中很多事物相互的关系不能用一条链串起来,很可能是交叉的、错综复杂的
  2. 贝叶斯网络:通过一个有向无环图来表示一组随机变量跟它们的条件依赖关系
    在这里插入图片描述
  3. 训练:使用贝叶斯网络需要先确定网络的拓扑结构,以及各个状态之间相关的概率,要用一些已知的数据训练网络
  4. 结构训练: 简单问题由专家直接给出结构;对于复杂问题
    a.贪心算法:容易陷入局部最优解
    b.蒙特卡洛方法:计算量大
    c.利用信息论:计算节点两两之间的互信息,只保留互信息较大的节点间的直接连接,然后对简化了的网络做完备搜索,找到全局最优的结构
  5. 参数训练:EM过程
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值