停用词的自动检测

令一个停用词为f(i),

nj(f(i)) 表示停用词i在时间窗口j内所有文本中出现的次数。 时间窗口典型的选择1天。时间窗口出现的文本,为这个时间产生的网页文章。例如在今天“沙达姆”出现在1000个文档中的20篇,则nj(f(i))=20。

另Pj [nj(f(i))=K] 表示停用词i在时间窗口j内所有文本中出现的次数为K的概率。K符合超几何分布。(不妨回忆一下超几何分布,在一个已知正品概率的总体空间中,任取n个零件,则其中正品的数量,这一随机变量就是超几何分布。),超几何分布在总体足够大的时候接近与二项分布,由于二项分布的计算比较简单,所以采用二项分布近似。

Pj [nj(f(i))=K]  = C(K,N)* pi^k*(1-pi)^N-k

N为在时间窗口j中的总文档数,K为包含停用词f(i)的文档数,pi,为停用词f(i)的一般出现文档频率。pi可以理解成一系列时间窗口的出现频率的均值。

在一个时间窗口中的二项分布一般是不对称的除非pi=0.5,我们正是利用这个不对称,来判别停用词。

来看这个

 

X轴表示时间窗口中的文档数,N为最大值。Y轴表示出现x个文档包含特征f(i)的概率,对于停用词来说,N个文档

中出现N个文档包含特征f(i)的概率都相当大,所以可以判定该词为停用词。

 

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值