语言统计学中的几个定律，可作为设计检索的参考

最新推荐文章于 2024-03-27 01:35:11 发布

weixin_30794499

最新推荐文章于 2024-03-27 01:35:11 发布

阅读量88

点赞数

原文链接：http://www.cnblogs.com/hdflzh/p/4034622.html

版权

30定律：出现频率最高的30个词占全文本总词数的30％

如果剔除150个最高频率的词（由于df过大被认为是停用词）：倒排表记录总个数会减少25－30％

Zipf定律：在自然语料库中所有term的freq（频度）排名和其freq（频度）的乘积大致是一个常数

freq_NO1 * 1 = freq_NO2 * 2 = freq_NO3 * 3 = freq_NOn * N

那也就是说排名第二多的词的频度是第一多的一半，排名第三的词频度是第一的1／3，这样以此类推

heaps定律，在自然语料库中不重复term的个数和语料库数据量成指数关系

因为是指数关系，可以知道下面几个特征

1 文档数无限增大，不重复term的个数也不会趋于一个常数

2 随着文档数的增加，不重复term的增长率会有所下降，增长率渐渐趋于平稳

Benford law：在自然形成的十进制数据中，任何一个数据的第一个数字d出现的概率大致log ₁₀(1+1/d)

转载于:https://www.cnblogs.com/hdflzh/p/4034622.html

weixin_30794499

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
语言统计学中的几个定律，可作为设计检索的参考

30定律：出现频率最高的30个词占全文本总词数的30％如果剔除150个最高频率的词（由于df过大被认为是停用词）：倒排表记录总个数会减少25－30％Zipf定律：在自然语料库中所有term的freq（频度）排名和其freq（频度）的乘积大致是一个常数freq_NO1 *1 =freq_NO2 *2=freq_NO3 *3=freq_NOn * N那也...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。