一、关键词自动标注
1、关键词
关键词是指能够反映文本语料主题的词语或短语,是快速了解文档内容、把握主题的重要方式。
2、概述
关键词自动标注大概可以分为两大类,一为关键词分配,另一个为关键词提取。
关键词分配是从一个预先构建好的受控词表中推荐若干个词或者短语分配给文档作为关键词。
关键词提取是从文档内容中寻找并推荐关键词,而没有指定的词库。
3、关键词提取
关键词提取一般分为两个步骤,一是生成关键词候选表,二是采用算法选择关键词。
(1)生成关键词候选表
1)去除停用词
2)只提取指定词性的词,如,名词、形容词、动词等
3)其他规则筛选等
(2)算法选用
现有的算法根据是否依赖外部知识库,大致可以分为两大类:一是依赖外部知识库,如:TF-IDF等;二是不依赖外部知识库,如:Textrank等。
此外还有监督方法,将关键词抽取转为序列标注,或基于神经网络的方法等。
4、TF-IDF
TF-IDF是一种统计方法,用以评估一字词对于一个文件集或者或一个语料库中的其中一份文件的重要程度。
字词的重要随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。
(1)原理
词频,即TF,指的是某一个给定的词语在该文件中