TF-IDF 通俗解释

特征提取是文本处理的关键步骤,涉及特征项选择和权重计算。特征项选择通过评分排序挑选重要特征,而权重计算如TF-IDF结合词频和逆文档频率评估词的重要性。TF-IDF方法虽然简单,但可能忽视单词位置信息。在博客中,TF-IDF用于突出关键概念,辅助生成标题、摘要和关键词。
摘要由CSDN通过智能技术生成

特征提取名词解释

1.特征提取对应着特征项的选择和特征权重的计算。

2.特征项的选择就是指根据某个评价指标独立的对原始特征项(词语)进行评分排序,从中选取得分最高的一些特征项,过滤掉其余的特征项。

3.特征权重的计算:主要思路是依据一个词的重要程度与类别内的词频成正比(代表性),与所有类别中出现的次数成反比(区分度)。

基于统计的特征提取方法(构造评估函数)

TF-IDF

词频(TF)公式= 某个词在文章中的出现次数 / 文章的总词数

逆文档频率(IDF)公式 = log(语料库的文档总数 / (包含该词的文档数+1))

公式:TF-IDF = TF * IDF

TF解释:词频,计算该词描述文档内容的能力

IDF解释:逆向文档频率,用于计算该词区分文档的的能力

思想:一个词的重要程度与在类别内的词频成正比,与所有类别出现的次数成反比。

评价:TF-IDF的精度并不是特别高。TF-IDF并没有体现出单词的位置信息。

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值