关键字提取工具(面向英文)

最近研究关键字提取技术(毕设需要)。语料集是英文。推荐一些相关工具。

开源工具:
RAKE(https://github.com/zelandiya/RAKE-tutorial
KEA(http://www.nzdl.org/Kea/) 监督式机器学习,使用训练数据和受控词表。
maui indexer(https://code.google.com/archive/p/maui-indexer/) 在kea的基础上进行拓展,增加新的特征项目,拓展了维基百科作为受控词表。
carrot2(http://project.carrot2.org/) 无监督方法,支持多种输入,输出格式和参数设置。
mallet topic modeling module(http://mallet.cs.umass.edu/topics.php)
Stanford topic modeling tool (http://nlp.stanford.edu/software/tmt/tmt-0.3/)
Mahout clustering algorithms(http://mahout.apache.org/)

商业API:
Alchemy API(http://www.alchemyapi.com/api/keyword-extraction)
zemanta API(http://developer.zemanta.com/)
yahoo term extraction api
(https://developer.yahoo.com/search/content/V1/termExtraction.html)

作为穷人,必然是开源的优先,目前主要使用了RAKE,KEA和maui indexer。
最初接触RAKE(Rapid Automatic Keyword Extraction)算法是通过伯乐在线的一篇翻译版的文章(http://python.jobbole.com/82230/),这篇文章的原作者是Alyona Medelyan,RAKE的更新版本就是她完成的,muai indexer也是她的杰作,她的GitHub上有很多关键字提取的项目。(https://github.com/zelandiya),目前在新西兰经营了一家NLP相关的公司。大部分论文和资料都可以在提供的链接中找到。

参考文献:
[1 ] Automatic keyword extraction from individual documents。
[2 ] KEA Practical Automatic Keyphrase Extraction
[3 ] Keyphrase Extraction in Scientific Publications

  • 4
    点赞
  • 22
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值