第5章 关键词提取算法 关键词是代表文章重要内容的一组词,对文本聚类、分类、自动摘要等起重要作用 5.1 关键词提取技术概述 关键词提取算法一般也可以分为有监督和无监督两类 监督式关键词提取 简介:主要通过分类的方式进行 介绍:通过构建一个较为丰富和完善的词表,然后通过判断每个文档与词表中每个词的匹配程度,以类似打标签的方式,达到关键词提取的效果 优缺点:有监督的方法能够获取到较高的精度,但缺点是需要大批量的标注数据,人工成本过高 无监督关键词提取 无监督提取对数据的要求比较低 既不需要一张人工生成、维护的词表,也不需要人工标准语料辅助进行训练