笔记是之前记在本子上的,最近开始整理成电子档~
一只想要好好学习的小白的学习日记~
第二~三章 自然语言处理——从规则到统计、统计语言模型
一、基于规则的句法分析
过去我们以为,要让计算机理解自然语言,才能翻译,因此我们分析语句和获取语义(是错误的)
上下文无关文法(2型文法):用于程序语言
优点:便于计算机解码
缺点:如果把自然语言理解为上下文无关文法,那么需人工总结文法规则,而规则数量庞大
上下文有关文法(1型文法):实际上自然语言不是上下文无关文法,是上下文有关文法
缺点:计算量巨大
二、基于统计的语言分析
为自然语言这种上下文相关的特性建立数学模型——贾里尼克、马尔可夫
马尔可夫假设:假设任意一个词出现的概率只和它前面的词
有关。因此,在二元模型中,S出现的概率为:
假设一个词由前面N-1个词决定,对应的模型也会稍复杂些,被称为N元模型。
由此,得出估计条件概率的公式:
根据大数定理,只要统计量足够,相对频率就等于概率
每天整理一点点~今天先到这里~
碎嘴心得:看阿西莫夫的机器人系列的时候,在几十年前他就为我们定下了机器人三法则,从而确保了机器人对人的安全。不过想想那几条法则都好难做到啊,一法则就是让机器人不能做伤害人类或者无作为的事情,那么如何让机器人判别出人类会受伤呢,感觉好难啊。不知道未来继续发展的科技能否实现这个功能呢,期待。