计算语言研究的先驱

      最近在看计算语言学的书,突然想了解下这些模型、定律之类的由来,就开始搜集资料,整理了一下,写成本博文。不愧是大牛们啊,东西有点难理解,所以本博文只写了点皮毛。

1.Markov链

       这里涉及到一个随机过程的概念,根据个人理解,这个概念可以归结为以下两点:(1)一个时间函数,随时间改变而改变;(2)每个时刻函数值不确定,是随机的,即每个时刻上的函数值按一定概率分布。例如,语言的使用,语言就是一系列具有不同随机试验结局的链。

       关于链有以下三种:(1)独立链:有一个原记忆信源发出(Markov过程的原始形式);(2)等概率独立链;(3)不等概率独立链。

      Markov链:前一时刻的函数值对后一时刻有影响,由有记忆信源发出。

      Markov链的分类:(1)一重Markov链(对应二元语法);(2)二重Markov链(对应三元语法);(3)三重Markov链(对应四元语法);......(注意:重数越大越接近真是文本,但会引发数据稀疏问题,关于数据稀疏的问题解决方法网上有很多资料,我在后续博文中也会跟进)。

 

2.Zipf定律

     主要由研究词的出现频率和词的序号的关系时得到。

    (1)最原始的Zipf定律:  (单参数序号分布定律)其中0<c<1,;

    (2)Mr.Joos修正:(双参数序号分布定律)其中b>0,0<c<1,;

   (3)B.B.Mandelbrot:  (三参数序号分布定律) 其中,b>0,c>0,;

    几点说明:

    c与出现概率最高的单词的概率大小有关;

    b与高概率单词的数量的多少有关,b是非递减函数,随着r的增大,b并不是减小;

    a与单词的数量n有关,自由度大,灵活,可适应测定数据。

  

    特殊情况:

    15<r<1500时,频率相同的词群容量不大;

     r>1500时,即当单词频率较小时,频率相同的词群的容量大大增加,此时会出现数据稀疏问题。

 

    归纳几点:

    r增大到一定值时,画出的频率和序号关系图不再是直线,而是阶梯形的破碎折线;

    单词序号雷同的数目是随单词频率的减少而逐渐增大的;

    频率最高的前几个单词占语言文本的较大比例。

 

3.Shannon关于“熵”的研究

    熵:度量随机试验不定度的大小。

    信息量的关于被消除的熵。也就是说你得到信息量越多,熵越小,事情越确定。

    可以用度量熵的合理性(n为等概率结局的随机试验):

         (1)n越大,熵越大;

         (2)做两个随机试验的复合试验,每个有n个可能结局,则此复合试验共有n的二次方个结局,如掷两颗骰子的     熵是掷一颗骰子的两倍,即

         (3)两个随机试验的复合试验,一个有m个结局,另一个有n个结局,则 

 

    n个等概率结局和n个不等概率结局的比较

    假设(n个结局,等概率)

           (n个结局,不等概率,第i个概率为Pi)    

    随着试验结局不等概率,减少了这个随机试验的不定度,所以

 

    另一个概念是困惑度(perplexity):在随机试验中选择随机变量的加权平均数。熵越大,困惑度越大。通俗点讲就是,熵越大,越不确定,你不就越感到困惑了嘛。。。

    熵和困惑度用于评估N元语法模型的计量方法。(关于条件熵、相对墒之类的后文会继续跟进,详细讲述)

  

4.Bar-Hilel的范畴语法

    主要思想:任何词都可以根据它在句子中的功能归入一定的句法类型。此处会用到一些类似的句法类型演算规则:

    (1)(a)(a\b) ->b   (2)(a\b)(b\c) ->a\c 

    (3)(b/c)(c) ->b   (4)(a/b)(b/c) ->a/c

     个人愚见:(1)(3)类似于离散数学中的消解规则;(2)(4)有点像经常说的传递性。

 

5.Harris的语言串分析法

   这个有点难限于本人能力有限。。。只简单介绍几个概念吧!

   词串:任何一个句子或其组成部分中按线性顺序排列的一个或多个词。

   串式:用词类或其次类替换词串的具体的单词而形成的符号串。

   句子:基于串通过附加、连接和替换等方式结合而成。

 

6. O.C.kyjiarHHa的语言集合论模型

      模型 L={w,o}   其中w为词集合,o为在w上成立句子的集句。

      成立句子:语法正确,不考虑语义是否正确。

     不成立句子:语法部分就有错误。

     词的域:一个词及其词行变化的全部形式的集合。

     词的族:等价性可以把集合分化为一系列不相交子集合,这个子集合叫做族。

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值