文本向量化——基于TF-IDF词袋模型的文本向量化方法

文本向量化——基于TF-IDF词袋模型的文本向量化方法

点这里,上一篇文章——基于高频词汇的文本向量化方法
点这里,利用TF-IDF,基于支持向量机模型对两万条新闻进分类

1、解释TF-IDF词袋模型
TF:词频
IDF:逆向文件频率

举例子解释:假如有一个包含100篇文章的文本集合,里面包含关于足球、汽车、服饰三个大类的文章,我们对这100篇进行分类。
显然,关于这三大类不同的文章都有各自的特征词,这些特征词会在归属类出现频率高,却在另外两类不出现或者偶尔出现。例如,足球新闻里面,足球、队员、守门员、前锋、后卫 等关键词出现频率或者出现几率高,而在汽车和服饰两类文章中出现几率十分小。为了描述这两个特征,就引进了TF和IDF

TF就是记录某些词语在一篇文章中的频率,IDF就是记录某些词语在所有文章中出现的比例。以“守门员”一词为例,它在足球类新闻中TF值会较高,在其他新闻TF值很低;IDF0值=含有“守门员”的新闻数 / 总新闻数。(实际上IDF计算不是这样的,为了好理解,待会我再进一步修改和解释,这里用IDF0表示以示区别)

假设每篇文章有50个词,“守门员”出现5次,则在这篇文章中“守门员”的TF值=0.1;又假设100篇文章中一共30篇文章出现“守门员”,则这篇文章中“守门员”的IDF0=0.3. 可以看出,同一个词在不同文章中TF可能不同,但IDF0都相同;也可以看出“守门员”这个词的IDF0值越等于足球类文章在文本总集合中的比例,因为有关足球的文章中几乎都会出现“守门员”一词。
当然,通过以上分析知道,一个词的TF越大、IDF越小,它越有特征。TF大好理解,那么IDF小为什么越小越好呢?比如“的”这个词基本上出现在所有文章中,它的IDF是1,当然没有特征意义啦。

TF-IDF值就是TF和IDF0的结合值,由于一个越大越好、一个越小越好,直接让他们相乘是不合适的,IDF0值得变个形式,IDF=ln(1/IDF0), 这样得到得IDF就是越大越好了。TF-IDF=TF*IDF, 其值越大、反应这个词的特征越强。

2、TF-IDF是这样一个矩阵
列数是总文本集中出现的所有单词数,每列对应一个单词;行数是文章总数(这里我假设是100),每一行代表一篇文章。每一行的元素,就是这篇文章每个词语的TF-IDF值(当然,没有出现的单词TF=0,TF-IDF也等于0了)
这样就得出了一个总文本的特征矩阵&#

  • 1
    点赞
  • 29
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
tf-idf是一种用于文本向量化的技术,它可以将文本转换成一个向量,以便进行机器学习文本挖掘等任务。 tf-idf是“词频-逆文档频率”(term frequency-inverse document frequency)的缩写。它是一种用于评估一个词在文档中的重要性的方法tf-idf值越高,说明该词在文档中越重要。 tf指的是词频(term frequency),即该词在文档中出现的次数。而idf指的是逆文档频率(inverse document frequency),它是用来衡量该词在整个文档集合中的重要性的。idf值越高,说明该词在整个文档集合中越不常见,因此在文档中出现的次数越少,但是对于文档的区分能力越强。 通过将每个文档中的词汇按照tf-idf值进行加权,并将每个文档表示成一个向量,就可以将文本转换成数值型的特征向量,以便进行机器学习文本挖掘等任务。 具体来说,tf-idf的计算公式为: tf-idf = tf * idf 其中,tf表示词频,计算公式为: tf = (词汇在文档中出现的次数) / (文档中词汇总数) idf表示逆文档频率,计算公式为: idf = log(文档总数 / 包含该词汇的文档数) 将所有文档中的词汇按照tf-idf值进行加权,就可以得到一个向量表示每个文档。这个向量的维度是所有词汇的数量,每个维度对应一个词汇的tf-idf值。由于大多数文档中只包含某些词汇,因此这个向量是非常稀疏的。 tf-idf文本向量化可以用于文本分类、文本聚类、信息检索等任务。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值