微信公众号:NLP从入门到放弃
有兴趣的去github看更多NLP相关知识总结:
https://github.com/DA-southampton/NLP_abilitygithub.com关键词的提取,也可以称之为文本标签提取。
比如说,”今天这顿烧烤是真不错啊“,在这句话中,”烧烤“这个词就可以被认为是一个关键词,或者说这个句子的一个标签。
这个标签在一定程度上能够表现出这个句子的含义,比如这个”烧烤“,如果用在文本分类任务中,可以隐含带有”美食“这个类别的信息。
这些标签有些时候也可以用在推荐系统的召回,比如直接按照”烧烤“这个标签做一路召回。
对于关键词的提取一般来说分为抽取式和生成式。其实类比到摘要,其实也是分为抽取式和生成式。
生成式有一个缺点就是有些结果不可控,这其实还挺要命的。
对于抽取式,就是从现有的数据中拿出来词组。最差的结果也就是拿出的单词并不重要,不是我们想要的。
我们的重点是在抽取式提取关键词。
关键词的提取可以分为两个步骤:召回+排序
1.召回
召回就是得到文本中的候选关键词,也就是得到这个句子中有可能是关键词的词汇。
这一步,可以做的方法有很多,比如
- 我们有积累的关键词词库,在这里直接匹配出来。
- 一些符合的词性的候选词,比如我挑选出名词作为候选词
- 还可以基于一些统计特征提出候选词,比如TF-IDF(有些时候统计特征也会用在排序中作为特征)
- 基于一些规则,比如一个句子出现了人名地名,书名号中词,