齐普夫定律学习笔记

最新推荐文章于 2021-03-31 16:51:19 发布

Together_CZ

最新推荐文章于 2021-03-31 16:51:19 发布

阅读量1.5w

点赞数 4

本文链接：https://blog.csdn.net/Together_CZ/article/details/69265143

版权

齐普夫定律:
齐普夫定律是美国学者G.K.齐普夫于20世纪40年代提出的词频分布定律。它可以表述为：如果把一篇较长文章中每个词出现的频次统计起来，按照高频词在前、低频词在后的递减顺序排列，并用自然数给这些词编上等级序号，即频次最高的词等级为1，频次次之的等级为2，……，频次最小的词等级为D。若用f表示频次，r表示等级序号，则有fr=C(C为常数)。人们称该式为齐普夫定律。
关于单词在文献中出现频次的齐普夫定律（Zipf's Law）。亦称省力法则。1948年由美国哈佛大学语言学教授G.K.齐普夫(George K. Zipf )对英语文献中单词出现的频次进行大量统计以检验前人的定量化公式而提出的。该定律指出文章中单词的频次(f)与其排列的序号(r)之间存在着下述定量的关系,齐普夫认为：如果有一个包含n 个词的文章，将这些词按其出现的频次递减地排序，那么序号r和其出现频次f之积fr，将近似地为一个常数，即fr=b，(式中r=1,2,3.…)，即词频分布定律最普通而又最典型的表达。此后, 许多工具书大都采用类似观点和说法。
(词频分布定律) 是指谈话者或写作者使用的词的分布和频次的总描述。F×R=C，方程式中F=频次,R=序号,即频率表上的位置；C=常数。方程式表示词使用的总次数和词频表上的位置之间有一个固定比率。但是齐普夫的表达仅适宜于中频词的情况，高频与低频词与该表述偏差较大。于是对词频分布规律又有许多补充和深化的研究。
词频分布原因的假说:
词频分布规律是有较为丰富内涵的，学术界认为正态分布是描述自然科学的典型分布，而齐普夫分布将成为揭示社会科学规律的典型分布，所以社会科学界一直很重视这个定律。讨论词频分布何以呈现那种特殊的形状，对其成因提出假说，建立适当的理论模型描绘其分布过程是当前研究工作的热点,目前较重要的假说有2个：①“省力法则”假说。提出这一假说的是齐普夫。他认为，在语言交流过程中，“省力法则”同时体现在说话人和听话人身上。说话人希望组成语言的词少，而且一词多义,以节省其精力。听话人认为最好是一词一义,使听到的词与其确切涵义容易匹配,减少他理解的功夫。这2种节省精力的倾向最后平衡的结果,便是词频的那种双曲线型分布。②“成功产生成功”假说。这方面以H.A.西蒙的研究最为著名。西蒙构造了一个概率模型，他所作的一个重要假说是：在文献中,一词使用的次数越多,则再次使用的可能性越大。该模型最后导出的分布与齐普夫分布相当接近，普赖斯后来建立了一个相类似的模型，又明确地提出了“成功产生成功”的假说。
--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Zipf定律(Zipf定律是文献计量学的重要定律之一，它和洛特卡定律、布拉德福定律一起被并称为文献计量学的三大定律):
Zipf定律是美国学者G.K.齐普夫提出的。可以表述为：在自然语言的语料库里，一个单词出现的次数与它在频率表里的排名成反比。
Zipf定律描述:
如果把单词出现的频率按由大到小的顺序排列,则每个单词出现的频率与它的名次的常数次幂存在简单的反比关系，这种分布就称为Zipf定律,它表明在英语单词中,只有极少数的词被经常使用,而绝大多数词很少被使用.实际上,包括汉语在内的许多国家的语言都有这种特点。这个定律后来在很多领域得到了同样的验证，包括网站的访问者数量、城镇的大小和每个国家公司的数量。
Zipf应用:
相信你一定听过这样的说法：
80%的财富集中在20%的人手中……
80%的用户只使用20%的功能……

20%的用户贡献了80%的访问量……

--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

齐普夫定律是众所周知的数理语言学中得重要定律，这个定律发现了在按频率递减顺序排列的频率词表中，单词的频率与它的序号之间存在“幂律”（power law）关系。

其中，f表示频率（frequency），r表示序号（rank），c和γ是参数。

齐普夫定律是再1935年由美国哈佛大学教授、语言学家G. K. Zipf（1902-1950）在E. Condon研究的基础上提出来得。他根据M. Hanley为J. Joyce的中篇小说《尤利西斯》（Ulysses）一书所编的频率词典，文本容量为260,432个词，词典中收不同的单词29,899个[1]。Zipf根据英语的数据计算出，在英语中, γ大约等于1。这样的研究与传统语言学最大的不同之处在于，这种研究要以大量的语言数据作为实验的基础，是一种数据密集型的研究。

G.K. Zipf根据有关的数据做出了如下的函数图表。

图 G.K.Zipf 的函数图表

后来学者们在大量数据的基础上进一步研究，发现上述公式并不能完全地反映频率词典中序号的分布规律。例如，从公式看来，一个r的值只能对应于一个f的值，因此，公式本身的性质决定了文本中不能存在频率相同的单词，这与语言的客观事实显然是不符合的。试验证明，当15<r<1500的时候，频率相同的词群容量不大，但是，当r>1500时，也就是当单词的频率比较小的时候，频率相同的词群的容量就大大增加了。这时，就会出现数据稀疏的问题。可见，上述各个公式都不能用来描述低频率的单词的序号分布情况，事实上，前面的函数图象应该为如下的形式：

AB实际上是一条破碎折线

实际上，并不是一条直线而是一条阶梯形的破碎折线。从图中可看出，序号高的低频率单词，不同的序号很可能具有相同的低频率，因而这些低频率单词，序号不同而频率相同的很多，而序号低的高频率单词，频率相同的词随着序号的降低越来越少。可以说，频率的雷同数是随着序号的降低而减少的，越是序号高的单词，频率相同的越多，越是序号低的单词，频率相同的越少。这种事实，用上述各个公式都不能很好地描述。可见，词的序号分布规律还有必要进一步加以研究。

引自：http://blog.sina.com.cn/s/blog_72d083c70102duho.html

Together_CZ

关注

4
点赞
踩
8

收藏

觉得还不错? 一键收藏
打赏
4
评论
齐普夫定律学习笔记

齐普夫定律:齐普夫定律是美国学者G.K.齐普夫于20世纪40年代提出的词频分布定律。它可以表述为：如果把一篇较长文章中每个词出现的频次统计起来，按照高频词在前、低频词在后的递减顺序排列，并用自然数给这些词编上等级序号，即频次最高的词等级为1，频次次之的等级为2，……，频次最小的词等级为D。若用f表示频次，r表示等级序号，则有fr=C(C为常数)。人们称该式为齐普夫定律。关于单词在文献中出现
复制链接

扫一扫