用分布定阈值

做算法,尤其是数据挖掘,经常会有需要根据数据计算指标,但是指标计算出来确无法快速选取初始阈值的情景。
最近在做新闻内容方面的关键词(高相关性词)提取(不是热点词提取!这有些区别的,热点词要具备热度的时间衰减,本次提取不关心这点)。
目前程序实现了卡方检验结合词频,tf×idf两种。
最初用卡方检验时,对于p和另一个属性词频,我是采用逐步降低标准和观察词汇质量来调整的。
但是在做tf×idf时,其实是一个变种,一篇论文(《热点主题词提取方法研究》程 肖 陆 蓓 谌志群)里提到的,用的tf,df与均值的方差作为衡量权值,而计算出的tf×idf也好,合并方差也罢,如何选取合适的阈值来得到理想的输出呢?做算法时,很多算法假设样本符合高斯分布,然后才能用各种公式或定理进行巧妙的求解或者变换。那么对于这些计算出的参数属性是不是也可以假设它们(理想答案)符合一种数学分布呢!
数学中有泊松分布,幂律分布,这里对于语言相关,选择幂律分布,不知道什么是幂律分布?或许你听过“二八法则”,它就是幂律分布的一种。
以下引用:

9世纪的意大利经济学家Pareto研究了个人收入的统计分布,发现少数人的收入要远多于大多数人的收入,提出了著名的80/20 法则,即20%的人口占据了80%的社会财富. 个人收入X 不小于某个特定值x的概率与x的常数次幂亦存在简单的反比关系: P [X ≥x ]~x - k ,此式即为Pareto定律(帕累托定律)。
先说个大概吧,还要改改程序,以后整理下,上代码注释版。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值