用TFIDF给特征词赋权值

TFIDF是一种用于信息检索与文本挖掘的常用技术,它通过结合词频(TF)和逆文档频率(IDF)来评估单词在文档中的重要性。在文本分类中,TFIDF能赋予具有区分能力的词较高权重。计算TFIDF时,TF反映了词在文档内的频繁程度,而IDF则考虑了词在整个文档集合中的稀有程度。实验表明,基于原始文章总词数计算TFIDF可以获得更高的分类准确率。
摘要由CSDN通过智能技术生成

0  背景

     
      在上一篇的用CHI检验的文章中我们已经获得了特征词,这些特征词在某一篇文章中出现的频率是不一样的,也可以说词与词的重要性是不一样的。为了标示特征词语的重要程度,就必须赋权重。在本篇文章中,我们使用的方法是TFIDF。

1   VSM向量空间模型

       
      哎?不是讲TFIDF吗,怎么会有VSM向量空间模型呢。是这样,在经过CHI提取到特征词后,然后再用TFIDF给特征词赋权值以后,这样就会组成一个向量:(term1,权重值;term2,权重值;........;termn,权重值),n为特征词的数量。这样的向量就是VSM。每篇文章都可以表示为这样的向量。
      比如说吧,对所有的训练样本经过CHI检验后,提取到的特征词有(“篮球”,“范冰冰”,“航空母舰”,“NBA”,“股票”,“综艺”,“娱乐圈”)这些词,当然真实的特征词肯定是成千上万的,在这里只是简单地举一个例子。当有一篇
  • 0
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值