毕设开发手记(六)

      STING算法中的网格与查询相关度判定我改为使用中心极限定理(列维-林德伯格)了。列维-林德伯格的公式只有在总体分布近似于正态分布时才比较准确,但没找到更好的公式了。现在毕设基本完工,界面也做好了。只是聚类结果有时候很诡异,难道降维降太猛了?我来说说我的降维方法:

  • 根据句子成分标注,只保留名词和动词。(忘了那篇论文里提到了,说副词没啥用)
  • 通过停用词表删词。(很小的停用词表,只有十几个单字无意义名/动词)
  • 该篇文章中出现概率小于3的删词。
  • 全部文章出现概率低于1%或者高于90%的删词。

      不过降维效果的确猛,都是按位数降的……从W级降到百级。小恐怖~后面就是大规模测试还有小修改了,打算明天释出第一个release!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值