第二章 语言计算研究的先驱
2.1 马尔科夫链 Markov chain
马尔科夫链:每个语言符号的出现概率不互相独立,每一个随机试验的个别结局依赖于他前面的随机试验的结局。
多元语法:前面多个语言符号对后面一个语言符号出现概率有影响,得到多重马尔科夫链。
2.2 齐普夫定律 Zipf’s law
词频词典,词频降序排列,单词序号 r=1,2,...,L ①,对应的词频为 fr=n1N,n2N,...,nLN
① pp.048 此处的L原文为2,显然印错了
Estoup和Condon发现, fr=cr−1
Zipf对《尤利西斯》的频率词典进行研究,将频率变为概率pr,得到单参数齐普夫定律: pr=cr−1 ,c为常数,0
2.3 香农与信息熵
等概率随机试验的熵: H0=log2n
不等概率随机试验的熵: H1=−Σpilog2pi
定义熵的最直观的办法,就是把熵想象成在最优编码中一定的判断或信息编码的位数的下界。
困惑度: 2H ,直观理解为在随机试验中选择随机变量的加权平均数。
条件熵: H=−ΣP(bi(n−1),j)log2Pbi(n−1)(j)
一重马尔科夫链(二元语法)对应一阶条件熵 H2=−Σpijlog2pi(j)
随着马尔科夫链重数增大,条件熵越来越小: H0>=H1>=...>=H∞
2.4 Bar-Hillel的范畴语法
句法类型
任何词可以根据它在句子中的功能归入一定的句法类型,如果用n表示名词的句法类型,用S表示句子,(这两种为原子范畴),则其他的一些句法类型(复合范畴)都可以用n和S以不同的方式结合起来表示。规则:
- 词C句法类型为γ,若词序列BC功能与β相同,则B的句法类型为β/γ
- 词A句法类型为α,若词序列AB功能与β相同,则B的句法类型为α\β
- 词A句法类型为α,词C句法类型为γ,若词序列ABC功能与β相同,则B的句法类型为α\β/γ
例如形容词修饰名词组成的词序列poor John
,句法功能和名词John
相同,所以形容词poor
的句法类型为n/n
,具体来说就是poor John的句法功能为n / poor后边的John的句法类型为n
进而可以得出句法类型表
词类 | 句法类型 |
---|---|
n. | n |
a. | n/n |
vi. | n\S |
vt. | n\S/n |
adv. | (n\S)\n\S |
adv. | S\S |
adv. | n\S/(n\S) |
prep. | S\S/n |
conj. | S\S/S |
通过4条演算规则,可以将词序列转化为S:
- (α)(α\β) → β;
- (β/γ)(γ) → β;
- (α\β)(β\γ) → α\γ;
- (α/β)(β/γ) → α/γ;
不能使用这四条规则通过有限次步骤转化为S的句子,则词序列不是该语言中合格的句子。
短语结构语法力图对句子进行切分,采用的是一种解析模式;
而范畴语法则力图反映句法类型的语义连锁,采用的是一种构造模式,将语义直接表示在句法中,与前者截然不同。
为了消除歧义、增强适应性等,需要引入更加复杂的句法类型和更多类型的演算规则。为此还制定了动词短语的句法类型表和运算表,(变得更加庞杂),不再赘述。
2.5 Harris的语言串分析法
Harris是美国结构主义语言学代表人物,也是乔姆斯基的老师
词串:词,或词按照线性排列形成的符号串,如客厅 里 坐 着 两 位 客人
串式:使用词类替换词或词串中的词形成的符号串,如<N><FN><V><PART><NUM><MEA><N>
基本串:中心串、连接串、替换串。
制定规则(麻烦),对中心串进行扩充,得到各种复杂的句子。
一个串式具有抽象性和概括性,能够对应很多相同结构但对象和意思完全不同的句子。
套路正是如此:
提取抽象范式 → 用于匹配和检索同类 → 制定适应方法,将范式套到其他对象上,实现转移和重用 → 制定变化方法,实现对象变型;制定融合方法,实现合成
2.6 O.C.库拉金娜的语言集合论模型
使用集合论方法建立自然语言的数学模型,从词规约为词组,从词组规约为句子的层次分析过程。
这部分俄语太多看不懂,看起来太费劲,而且我觉得细看也没啥意义,故跳过。