网上看到一篇文章总结了几个关键词抽取的算法(如何做好文本关键词提取?从达观数据应用的三种算法说起),想到这是一个很重要的课题还是有必要小结一下的,有不足之处大家可以讨论讨论
还有几个比较好的链接供大家参考
大体上关键词抽取算法分三种:有监督(二分类问题,需提供大量标注好的训练数据),半监督(提供少量的有标注的训练数据作为种子数据构建模型),无监督(一些方法自动发现关键词)
有监督的方法需要大量的标注数据,这一点比较耗费人工,所以还是能无监督就无监督
对英语来说可以直接考虑以词语为单位,但是汉语处理还需要先经过分词处理,分词的准确率影响后来的算法准确率,分词的package包括jieba(github上有很多),NLTK,standfo