Zipf's law分析

最新推荐文章于 2022-02-23 15:02:25 发布

pennyliang

最新推荐文章于 2022-02-23 15:02:25 发布

阅读量6.4k

点赞数 1

文章标签： c

本文链接：https://blog.csdn.net/pennyliang/article/details/1207832

版权

简单地说，Zipf发现一个词在一个有相当长度的语篇中的等级序号（该词在按出现次数排列的词表中的位置，他称之为rank，简称r）与该词的出现次数（他称为frequency，简称f）的乘积几乎是一个常数（constant，简称C）。用公式表示，就是r × f = C。例如，他根据M. L. Hanley（1937）中有关James Joyce Ulysses的用词数据，从中抽取了第10、20等序号的词，其序号（r）与在书中的出现次数（f）的乘积分别如下表的III栏。除了最后三个数字出入稍大一点，其他的都在26,000左右。而且，Zipf发现常数C乘以10跟该书的实际总词数260,430很接近，如IV栏所示。

I Rank (r)	II Frequency (f)	III Product of I and II (r × f = C)	IV Theoretical Length of Ulysses (C × 10)
10	2,653	26,530	265,300
20	1,311	26,220	262,200
30	926	27,780	277,800
40	717	28,680	286,800
50	556	26,500	278,000
100	265	26,500	265,000
200	133	26,600	266,000
300	84	25,200	252,000
400	62	24,800	248,000
500	50	25,000	250,000
1,000	26	26,000	260,000
2,000	12	24,000	240,000
3,000	8	24,000	240,000
4,000	6	24,000	240,000
5,000	5	25,000	250,000
10,000	2	20,000	200,000
20,000	1	20,000	200,000
29,899	1	29,899	298,990

r × f = C这个公式还说明，一个词的出现次数跟它的等级序号成反比。出现次数越多，序号越小。出现次数最多的排第一，出现次数最少的排最后。这原本没有什么特别的：序号就是根据出现次数排的。但它们的乘积是常数这一点，却使得分别以词的序号和出现次数为轴线的双对数表（doubly logarithmic chart）呈现极大的规律性——它几乎是一条45度的直线。

pennyliang

关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
Zipf's law分析

简单地说，Zipf发现一个词在一个有相当长度的语篇中的等级序号（该词在按出现次数排列的词表中的位置，他称之为rank，简称r）与该词的出现次数（他称为frequency，简称f）的乘积几乎是一个常数（constant，简称C）。用公式表示，就是r × f = C。例如，他根据M. L. Hanley（1937）中有关James Joyce Ulysses的用词数据，从中抽取了第10、20等序号的词
复制链接

扫一扫

Zipf's law分析

“相关推荐”对你有帮助么？