看文章的时候看到互联网上有些部分符合zipf分布,挺都没听说过,于是查下。
查了些资料,发现是哈佛的语言学家zipf在研究语料库的时候发现的,所以也叫齐普夫定律,按照单词在语料库中出现的次数排序,则该单词的排序数与其在语料库中出现频数成反比,或者说,二者乘积为一个常数。
其公式为:P(r) = C / r^α
这里 r 表示一个单词的出现频率的排名,P(r)表示排名为r的单词的出现频率。单词频率分布中 C约等于0.1, α约等于1。
这说明在英语单词中,只有极少部分的词被经常使用,而绝大部分词很少被使用。
如果按照出现频率排序,则第二常见的单词出现频率是第一常见单词出现频率的1/2,第三常见单词为第一常见单词出现频率的1/3,第三常见单词为第一常见单词出现频率的1/n。