[NLP][5][关键词提取算法]

本文介绍了关键词提取的重要性以及两种方法:有监督和无监督。重点讲解了无监督的TF-IDF算法,包括TF和IDF的基本思想,并给出了计算公式。
摘要由CSDN通过智能技术生成

第5章 关键词提取算法

  • 关键词是代表文章重要内容的一组词,对文本聚类、分类、自动摘要等起重要作用

5.1 关键词提取技术概述

  • 关键词提取算法一般也可以分为有监督和无监督两类

  • 监督式关键词提取

    • 简介:主要通过分类的方式进行
    • 介绍:通过构建一个较为丰富和完善的词表,然后通过判断每个文档与词表中每个词的匹配程度,以类似打标签的方式,达到关键词提取的效果
    • 优缺点:有监督的方法能够获取到较高的精度,但缺点是需要大批量的标注数据,人工成本过高
  • 无监督关键词提取

    • 无监督提取对数据的要求比较低
    • 既不需要一张人工生成、维护的词表,也不需要人工标准语料辅助进行训练

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值