数学之美

第一章:

1.信息传播的模型:

编码 解码 信道传输

 

2.翻译的条件:

不同语言文字的表达能力是等价的,仅仅是编码的方式有所区别

 

3.典型案例:

古埃及的罗塞塔碑,通过三种不同的文字记录

 

计数系统也是一种编码形式

古玛雅人采用20进制,古代中国解码的方式是乘法,古代罗马的解码方式是加减法,古印度人发明了阿拉伯数字(更加的抽象)

中国的象形文字  -> 西方的拼音文字     具体 -> 抽象

常用字短,生僻字长,符合最短编码原理

 

4.语言学研究的问题:

   (1)语言对 (2)语法对   通过实践的检验,发现(1)种方法更加的有效

 

第二章:自然语言处理 (从规则到统计)

字母,文字和数字实际上是不同的编码方式。语言的语法规则是编解码的算法。

1.机器智能:

图灵测试:留下了一个问题。

早期科学家研究自然语言局限在 人类学习语言的方式上,考虑模拟人脑,但人脑结构机器复杂,导致没有什么成果。

20世纪70年代开始,开始考虑基于数学模型和统计的方法,自然语言处理开始取得实质性的突破。

 

所谓的智能:其实都是统计学(任总还是高),门外汉才会认为计算机真的拥有了人的智能。

 

2.从规则到统计:

自然语言的多义性:依靠上下文甚至于常识

20世纪70年代基于统计的核心模型:通信系统加上马尔科夫模型

前期发展缓慢的原因:计算机的算力不够+语料不足

在数学意义上自然语言处理的初衷(通信)联系在一起

 

第三章:统计语言模型

计算机处理nlp的基本问题:为语言这种上下文相关的特性建立数学模型

1.用数学的方法描述语言

判断词划分的序列是否合乎规则,这条路走不通

解决办法:一个句子划分的是否合理,通过这个句子出现的可能性来衡量

公式表述:

P(S)=P(w_{1},w_{2},...,w_{n})

          =P(w_{1})P(w_{2}|w_{1})P(w_{3}|w_{1}w_{2})...P(w_{n}|w_{1}w_{2},...w_{n-1})

这个式子告诉我们一个词出现的概率和它前面所有的词都是有关的

导致一个问题:尽管前面的概率容易计算,可是后面的概率非常难以计算

 

简化问题:假设词 w{_i} 出现的概率只和它前面的词 w_{i-1} 有关(马尔可夫假设)

公示表述:

P(s)=P(w_{1})P(w_{2}|w_{1})P(w_{3}|w_{2})...P(w_{n}|w_{n-1})

对应的统计模型称为二元模型(Bigram Model)

 

核心:如果估计P(w_{i}|w_{i-1})

P(w_{i}|w_{i-1})=\frac{P(w_{i-1}w_{i})}{P(w_{i-1})}

只需要估计联合概率P(w_{i-1}w_{i})边缘概率P(w_{i-1})

 

如果有专业的语料库,计算相对频度

f(w_{i-1}w_{i})=\frac{\bullet w_{i-1}w_{i}}{\bullet All }

f(w_{i-1})=\frac{\bullet w_{i-1}}{\bullet All}

 

根据大数定理,如果统计量足够,相对频度等于频率:

P(w_{i-1}w_{i})\approx \frac{\bullet w_{i-1}w_{i}}{\bullet All }

P(w_{i-1})\approx \frac{\bullet w_{i-1}}{\bullet All}

P(w_{i}|w_{i-1})\approx \frac{\bullet (w_{i-1}w_{i})}{\bullet (w_{i-1})}

这么简单的模型是否有效呢?非常有效

2.统计语言模型的工程诀窍

   2.1高阶语言模型

        常用的是3元模型,空间复杂度和时间复杂度指数增长

        局限性:上下文之间的相关性可能会距离很远,提高阶数也无可奈何。

       解决方案:采用其他的长程的依赖性。

  2.2 模型的训练、零概率问题和平滑方法

      统计的可靠性问题:大数定理要求足够多的观测值

     对于样本不足时的估计:

      古德-图灵估计:在统计中相信可靠地统计数据,而对不可信的统计数据打折扣的一种概率估计方法,同时将打折扣出来的那一小部分给予未看见的事件。

2.3语料的选取问题

训练数据需要和应用一致,效果才会更好

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值