自然语言处理PPT笔记-NLP数学基础

来自 刘秉权 教授的 自然语言处理概述 

尽管这个PPT有些老了,但是还是挺全面的。听说挺有用,就做了一些笔记。原课件参考:点击打开链接


内容层的信息处理




计算机能够理解人的语言吗?


结构主义:追求机器的理解机制和人相同。

  问题:人类尚不清楚自身理解语言的机制。

功能主义:机器的表现与人相同即可。

  图灵测试:如果通过自然语言的问答,一个人无法识别和他对话的是人还是机器,那么就应该承认机器具有智能。

  如果机器无法像人一样真正理解语言,那么它能像人一样表现吗?


主要困难


·歧义

·病构


歧义

    注音歧义:快乐(le4),音乐(yue4)

    分词歧义:乒乓球/拍卖/完/了;乒乓球拍/卖/完/了

    短语歧义:[咬死猎人]的狗;咬死[猎人的狗]

    词义歧义:[打]乒乓球;[打]毛衣;[打]电话

    语用歧义:“你真讨厌!”

病构

    1.未登录词

    2.已知词的新用法

    3.不合乎语法的句子:他非常男人

    4.不合乎语义约束的搭配:My car drinks gasoline like water.

    5.由于疏忽造成的错误


NLP数学基础


·概率论与数学统计

    ·概率

    ·最大似然估计

    ·条件概率

    ·贝叶斯公式

    ·二项式分布

    ·期望

    ·方差

·信息论

    ·熵

    ·联合熵

    ·互信息

    ·相对熵

    ·交叉熵

    ·迷惑度

    ·噪声信道模型

·建模方法

·最优化方法


概率(Probability)



最大似然估计(Maximization likelihood estimation,MLE)



现代汉语字频统计结果:前20个最高频汉字及其频率



条件概率(conditional probability)


例:

    当预测“大学”一词出现的概率时,如果已经知道出现在它前面的两个词是“哈尔滨”和“工业”,“大学”一词出现的概率会大大增加。


全概率公式



贝叶斯定理(Bayes’ Theorem)



先验概率、后验概率

·先验概率(Prior probability):不考虑先决条件(信息或者知识)而得到的该事件的概率:一般在试验前已知,常常是以往经验的总结。

·后验概率(Posterior probability):在具备该事件出现的信息或者知识的条件下得到的该事件的概率:反映了试验之后对各种原因发生的可能性大小的新知识。


下面为一道例题:




二项式分布



    自然语言处理中常以句子为处理单位,一般假设一个语句独立于它前面的其他语句,句子的概率分布近似的认为符合二项式分布。


期望



方差

    一个随机变量的方差描述的是该随机变量的值偏离其期望值的程度。设X为一随机变量,其方差为:



信息论

·1948年美国Shannan香农提出“通信的数学理论”,用概率测度和数理统计的方法,系统地讨论了通信的基本问题,奠定了信息论的基础。

·什么是信息?

    信息的度量有三个基本方向:结构的、统计的和语义的

·香农所说的信息是狭义的信息,是统计信息,依据是概率的不确定性度量。


    熵表示信息源X每发一个符号所提供的平均信息量。

    熵也可以被视为描述一个随机变量的不确定性的数量。一个随机变量的熵越大,它的不确定性越大,正确估计其值的可能性就越小。越不确定的随机变量越需要大的信息量用以确定其值。

熵的定义


抛非均匀硬币事件的熵值


英语字母的熵-等概率情况



英语字母的熵-实际出现情况

    例:考察英语中特定字母出现的频率。当观察字母的个数较少时,频率有较大幅度的随机波动,但当观察数目增大时,频率即出现稳定性,有人统计了438023个字母得到如下表所示的数据:


    根据熵的定义计算,每收到一个英文信号的不确定程度是4.1606比特。

比较:

    ·考虑了英文字母实际出现的概率后,英文信源的平均不确定性比把字母看做等概率出现时英文信源的平均不确定性要小。

    ·均衡分布的熵最大。


汉字的熵

    中文当中有6000多个常用字,经冯志伟等人测算,汉字的信息熵随着汉字个数的增加而增加。当汉子的个数达到12366个时,汉字的信息熵值为9.65比特。因此,汉字机内码必须用两个字节才能表示一个汉子。


联合熵(Joint Entropy)

    如果X、Y是一对离散型随机变量,其联合概率分布密度函数为p(x,y),X、Y的联合熵定义为:


    联合熵就是描述一对随机变量平均所需要的信息量。


条件熵(Conditional Entropy)

    如果离散型随机变量(X,Y)的联合概率分布密度函数为p(x,y),已知在随机变量X的情况下随机变量Y的条件熵定义为:


    条件熵表示的是在已知X的情况下,传输Y额外所需的平均信息量。


熵的连锁规则


证明:



互信息(Mutual Information)

    如果离散型随机变量(X,Y)的联合概率分布密度函数为p(x,y),X,Y之间的互信息定义为:


    互信息I(X;Y)是在知道了Y的值后X的不确定性的减少量。即Y的值透露了多少关于X的信息量。


    这个式子一方面说明了为什么熵又称自信息,另一方面说明了两个完全相互依赖的变量之间的互信息并不是常量,而是取决于他们的熵。

互信息与熵之间的关系


相对熵(Relative Entropy or Kullback-Leibler Divergence)

    两个概率分布p(x)和q(x)的相对熵定义为:


    相对熵被用以衡量两个随机分布的差距。D(p||q)>=0,当且仅当两个随机分布相同时,其相对熵为0,当两个随机分布的差别增加时,其相对熵也增加。D(p||q)!=D(q||p).


交叉熵(Cross Entropy)

    如果一个随机变量X的概率分布为p(x),q(x)为用于近似p(x)的概率分布,那么随机变量X和模型q之间的交叉熵定义为:


    交叉熵的概念是用来衡量估计模型与正式概率分布之间差异的。


语言与其模型的交叉熵


    假设在理想情况下,即n趋于无穷大时,其全部“单词”的概率和为1.即根据信息论的定理:假定语言L是稳态(stationary)ergodic随机过程,L与其模型q的交叉熵计算公式就变为:


    因此可以根据模型q和一个含有大量数据的L样本来计算交叉熵。在设计模型q时,目的是使交叉熵最小,从而使模型最接近真实的概率分布p(x)。


迷惑度(复杂度,困惑度,Perplexity)

    在设计语言模型时,通常用迷惑度来代替交叉熵衡量语言模型的优劣。给定语言L的样本L的迷惑度定义为:


    语言模型设计的任务就是寻找迷惑度最小的模型,使其最接近真实的语言。


信源信道模型



接下来是NLP语言学基础......


  • 1
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值