关键词提取

最新推荐文章于 2024-08-03 21:59:14 发布

DecafTea

最新推荐文章于 2024-08-03 21:59:14 发布

阅读量272

点赞数

分类专栏： NLP

本文链接：https://blog.csdn.net/DecafTea/article/details/110492191

版权

NLP 专栏收录该内容

52 篇文章 3 订阅

订阅专栏

借鉴了：
关键词抽取的经验：https://www.zhihu.com/question/21104071/answer/24556905
基于TF-IDF的关键词提取：https://www.jianshu.com/p/2f88243074f9
NLP关键词提取方法总结及实现：https://blog.csdn.net/asialee_bird/article/details/96454544#%E4%BA%8C%E3%80%81TF-IDF%E5%85%B3%E9%94%AE%E8%AF%8D%E6%8F%90%E5%8F%96%E7%AE%97%E6%B3%95%E5%8F%8A%E5%AE%9E%E7%8E%B0

以我做关键词抽取的经验，建议如下：1. TFIDF是很强的baseline，具有较强的普适性，如果没有太多经验的话，可以实现该算法基本能应付大部分关键词抽取的场景了。2. 对于中文而言，中文分词和词性标注的性能对关键词抽取的效果至关重要。3. 较复杂的算法各自有些问题，如Topic Model，它的主要问题是抽取的关键词一般过于宽泛，不能较好反映文章主题。这在我的博士论文中有专门实验和论述；TextRank实际应用效果并不比TFIDF有明显优势，而且由于涉及网络构建和随机游走的迭代算法，效率极低。这些复杂算法集中想要解决的问题，是如何利用更丰富的文档外部和内部信息进行抽取。如果有兴趣尝试更复杂的算法，我认为我们提出的基于SMT（统计机器翻译）的模型，可以较好地兼顾效率和效果。4. 以上都是无监督算法，即没有事先标注好的数据集合。而如果我们有事先标注好的数据集合的话，就可以将关键词抽取问题转换为有监督的分类问题。这在我博士论文中的相关工作介绍中均有提到。从性能上来讲，利用有监督模型的效果普遍要优于无监督模型，对关键词抽取来讲亦是如此。在Web 2.0时代的社会标签推荐问题，就是典型的有监督的关键词推荐问题，也是典型的多分类、多标签的分类问题，有很多高效算法可以使用。

具体方法：
TF-IDF

TextRank

LDA主题模型

五、Word2Vec词聚类

六、信息增益

七、互信息

八、卡方检验

九、基于树模型

从实验中可以很明显看出有监督关键词抽取方法通常会显著好于无监督方法，但是有监督方法依赖一定规模的标注数据。