gensim提取一个句子的关键词_python-使用Gensim提取短语时出错

gensim Phrases所使用的技术完全基于共现的统计:在同时受min_count影响并与阈值进行比较的公式中,单词出现的频率相对于单独出现的频率.

只是因为您的训练集有“ new”和“ york”彼此并发两次,而其他词(例如“ machine”和“ learning”)仅并发了一次,所以“ new_york”就变成了双语法例,并且其他配对则没有.而且,即使您确实找到了min_count和阈值的组合,也可以将’machine_learning’提升为一个双语法例,它也会将其他所有出现的双语法例配对在一起-这可能不是您想要的.

的确,要从这些统计技术中获得良好的结果,您需要大量不同的,现实的数据. (出于玩具大小的原因,玩具大小的示例可能在表面上成功或失败.)

即使那样,他们仍会错过一个人认为合理的组合,而使一个人不会组合.为什么?因为我们的头脑中有很多更复杂的方法(包括语法和现实知识)来确定何时成堆的单词代表一个概念.

因此,即使有了更多更好的数据,也要为无意义的n-gram做好准备.调整或判断模型是否在总体上改善您的目标,而不是针对您的敏感性进行任何单点检查或临时检查.

(关于参考的gensim文档注释,我非常确定,如果仅对其中列出的两个句子尝试“短语”,它将找不到任何期望的短语-而不是“ new_york”或“ machine_learning”.作为一个比喻性的示例,省略号…表示训练集更大,结果表明多余的未显示文本很重要,这仅仅是因为您在代码中添加了第三句话,因此可以检测到“ new_york”.使“ machine_learning”看起来更像是统计上无关的配对的示例,您的代码也可以促进“ machine_learning”.)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值