1.关键词提取
关键词指的是原始文档的和核心信息,关键词提取在文本聚类、分类、自动摘要等领域中有着重要的作用。
针对一篇语段,在不加人工干预的情况下提取出其关键词
首先进行分词处理
关键词分配:事先给定关键词库,然后在文档中进行关键词检索
关键词提取:根据某种规则,从文档中抽取最重要的词作为关键词
有监督:抽取出候选词并标记是否为关键词,然后训练相应的模型
无监督:给词条打分,并基于最高分抽取
无监督学习——基于词频
思路1:按照词频高低进行提取
大量高频词并无多少意义(比如停用词)
即使出现频率相同,常见词的价值也明显低于不常见词
思路2:按照词条在文档中的重要性进行提取
2.TF-IDF算法
2.1TF-IDF介绍
IF-IDF是信息检索中最常用的一种文本关键信息表示法,其基本的思想是如果某个词在一篇文档中出现的频率高,并且在语料库中其他文档中很少出现,则认为这个词具有很好的类别区分能力。
TF:Term Frequency,衡量一个term在文档中出现得有多频繁。平均而言出现越频繁的词,其重要性可能就越高。考虑到文章长度的差异,需要对词频做标准化:
TF(t)=(t出现在文档中的次数)/(文档中的term总数)
TF(t)=(t出现在文档中的次数)/(文档中出现最多的term的次数)
IDF:Inverse Document Frequency,逆文档概率,用于模拟在该语料的实际使用环境中,目标t