简要说一下现有的处理流程:原始语料 -> 进行停用词过滤、词形还原、(可能还有词性标注)、分词 -> 利用算法进行关键词提取 -> 多算法结果融合,生成最终关键词
一、关键词的特点:
关键词是指能够反映文本语料主题的词语或短语。在实际业务中,单个词语的意义不大,主要是短语,而且大多数关键词是名词短语。
1.一段语料中的关键词在该段语料中可能频繁出现,而在其他语料中出现次数较少。
2.针对于总分总结构的文本(如新闻报道),出现在文章首部和尾部位置的词语成为关键词的可能性要远大于只出现在文章中部的词语。
3.在文本中反复出现且关键词附近出现关键词的概率非常大
4.在文本中反复出现且左右出现不同词语的概率非常大
二、关键词抽取概述
关键词抽取从最终的结果反馈上来看,大体可以分为两大类,一是关键词分配,另一个是关键词提取。关键词分配是指,给定一个指定的词库,选取和文章关联度最大的几个词作为该文章的关键词。关键词提取是指,没有指定的词库,从文章中抽取代表性词作为该文章的关键词。(这里存在一个问题,如果关键词是隐性的,不是显性出现在文章中的该怎么办...后边再介绍)目前,大多数领域无关(即无论什么主题什么领域都可以进行关键词提取的)关键词抽取算法和它对应的库都是基于后者的,因此,关键词提取对工业界来说更有意义,后边也主要阐述一些现有的关键词提取的算法。
从现有的算法来看,根据其是否依赖外部知识库,大致可以分为两大类:一是依赖外部知识库:如TF-IDF、KEA、RAKE等算法;另一类则是不依赖外部知识库,该类算法可以解决语言无关以及