《自然语言计算机形式分析的理论与方法》读书笔记(2)

第二章 语言计算研究的先驱

2.1 马尔科夫链 Markov chain

马尔科夫链:每个语言符号的出现概率不互相独立,每一个随机试验的个别结局依赖于他前面的随机试验的结局。

多元语法:前面多个语言符号对后面一个语言符号出现概率有影响,得到多重马尔科夫链。

2.2 齐普夫定律 Zipf’s law

词频词典,词频降序排列,单词序号 r=1,2,...,L ①,对应的词频为 fr=n1N,n2N,...,nLN

① pp.048 此处的L原文为2,显然印错了

Estoup和Condon发现, fr=cr1

Zipf对《尤利西斯》的频率词典进行研究,将频率变为概率pr,得到单参数齐普夫定律: pr=cr1 ,c为常数,0

2.3 香农与信息熵

等概率随机试验的熵: H0=log2n

不等概率随机试验的熵: H1=Σpilog2pi

定义熵的最直观的办法,就是把熵想象成在最优编码中一定的判断或信息编码的位数的下界。

困惑度 2H ,直观理解为在随机试验中选择随机变量的加权平均数。

条件熵 H=ΣP(bi(n1),j)log2Pbi(n1)(j)

一重马尔科夫链(二元语法)对应一阶条件熵 H2=Σpijlog2pi(j)

随着马尔科夫链重数增大,条件熵越来越小: H0>=H1>=...>=H

2.4 Bar-Hillel的范畴语法

句法类型
任何词可以根据它在句子中的功能归入一定的句法类型,如果用n表示名词的句法类型,用S表示句子,(这两种为原子范畴),则其他的一些句法类型(复合范畴)都可以用n和S以不同的方式结合起来表示。规则:

  • 词C句法类型为γ,若词序列BC功能与β相同,则B的句法类型为β/γ
  • 词A句法类型为α,若词序列AB功能与β相同,则B的句法类型为α\β
  • 词A句法类型为α,词C句法类型为γ,若词序列ABC功能与β相同,则B的句法类型为α\β/γ

例如形容词修饰名词组成的词序列poor John,句法功能和名词John相同,所以形容词poor的句法类型为n/n,具体来说就是poor John的句法功能为n / poor后边的John的句法类型为n

进而可以得出句法类型表

词类句法类型
n.n
a.n/n
vi.n\S
vt.n\S/n
adv.(n\S)\n\S
adv.S\S
adv.n\S/(n\S)
prep.S\S/n
conj.S\S/S

通过4条演算规则,可以将词序列转化为S:

  • (α)(α\β) → β;
  • (β/γ)(γ) → β;
  • (α\β)(β\γ) → α\γ;
  • (α/β)(β/γ) → α/γ;

不能使用这四条规则通过有限次步骤转化为S的句子,则词序列不是该语言中合格的句子。

短语结构语法力图对句子进行切分,采用的是一种解析模式
范畴语法则力图反映句法类型的语义连锁,采用的是一种构造模式,将语义直接表示在句法中,与前者截然不同。

为了消除歧义、增强适应性等,需要引入更加复杂的句法类型和更多类型的演算规则。为此还制定了动词短语的句法类型表和运算表,(变得更加庞杂),不再赘述。

2.5 Harris的语言串分析法

Harris是美国结构主义语言学代表人物,也是乔姆斯基的老师

词串:词,或词按照线性排列形成的符号串,如客厅 里 坐 着 两 位 客人

串式:使用词类替换词或词串中的词形成的符号串,如<N><FN><V><PART><NUM><MEA><N>

基本串:中心串、连接串、替换串。

制定规则麻烦),对中心串进行扩充,得到各种复杂的句子。

一个串式具有抽象性和概括性,能够对应很多相同结构但对象和意思完全不同的句子。
套路正是如此:
提取抽象范式 → 用于匹配检索同类 → 制定适应方法,将范式套到其他对象上,实现转移重用 → 制定变化方法,实现对象变型;制定融合方法,实现合成

2.6 O.C.库拉金娜的语言集合论模型

使用集合论方法建立自然语言的数学模型,从词规约为词组,从词组规约为句子的层次分析过程。

这部分俄语太多看不懂,看起来太费劲,而且我觉得细看也没啥意义,故跳过

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值