简单地说,Zipf发现一个词在一个有相当长度的语篇中的等级序号(该词在按出现次数排列的词表中的位置,他称之为rank,简称r)与该词的出现次数(他称为frequency,简称f)的乘积几乎是一个常数(constant,简称C)。用公式表示,就是r × f = C。例如,他根据M. L. Hanley(1937)中有关James Joyce Ulysses的用词数据,从中抽取了第10、20等序号的词,其序号(r)与在书中的出现次数(f)的乘积分别如下表的III栏。除了最后三个数字出入稍大一点,其他的都在26,000左右。而且,Zipf发现常数C乘以10跟该书的实际总词数260,430很接近,如IV栏所示。
I Rank (r) | II Frequency (f) | III Product of I and II (r × f = C) | IV Theoretical Length of Ulysses (C × 10) |
10 | 2,653 | 26,530 | 265,300 |
20 | 1,311 | 26,220 | 262,200 |
30 | 926 | 27,780 | 277,800 |
40 | 717 | 28,680 | 286,800 |
50 | 556 | 26,500 | 278,000 |
100 | 265 | 26,500 | 265,000 |
200 | 133 | 26,600 | 266,000 |
300 | 84 | 25,200 | 252,000 |
400 | 62 | 24,800 | 248,000 |
500 | 50 | 25,000 | 250,000 |
1,000 | 26 | 26,000 | 260,000 |
2,000 | 12 | 24,000 | 240,000 |
3,000 | 8 | 24,000 | 240,000 |
4,000 | 6 | 24,000 | 240,000 |
5,000 | 5 | 25,000 | 250,000 |
10,000 | 2 | 20,000 | 200,000 |
20,000 | 1 | 20,000 | 200,000 |
29,899 | 1 | 29,899 | 298,990 |