文本型数据的向量化:TF-IDF

1.对于文本型数据的分类处理(或者其他的处理),根据ik和jcseg等分词器先对它们进行分词处理之后,大家都知道,计算机是处理不了汉字的,对于文本型的词我们如何才能让计算机处理呢?我们可以通过TF-IDF将文本型的数据向量化。对于TF-IDF的概念我就不再阐述,网上的资源非常多,这里我主要来看看是如何实现的。
2.测试数据的准备(pca.txt)
1,纵坐标 是 该词 在该 文章 中 的 权重
0,其 出发点 是 一个词 对于 分类 的 重要性 不但 取决于 其在 整个语料 中 出现 的 概率
0,那么 它 对于 分类 的 重要性 也是 不同 的
1,我们 是 祖国 的 接班人
说明:,前面的是类别,后面的是伪造的一些分词的结构,通过空格分割,具体的一篇文章,可以通过分词器将其分割成这样的。
3.代码实现
LableWords.scala
package com.iflytek.classifier
import java.io.Serializable
case class LableWords(label:Str
  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
tf-idf是一种用于文本向量化的技术,它可以将文本转换成一个向量,以便进行机器学习和文本挖掘等任务。 tf-idf是“词频-逆文档频率”(term frequency-inverse document frequency)的缩写。它是一种用于评估一个词在文档中的重要性的方法。tf-idf值越高,说明该词在文档中越重要。 tf指的是词频(term frequency),即该词在文档中出现的次数。而idf指的是逆文档频率(inverse document frequency),它是用来衡量该词在整个文档集合中的重要性的。idf值越高,说明该词在整个文档集合中越不常见,因此在文档中出现的次数越少,但是对于文档的区分能力越强。 通过将每个文档中的词汇按照tf-idf值进行加权,并将每个文档表示成一个向量,就可以将文本转换成数值的特征向量,以便进行机器学习和文本挖掘等任务。 具体来说,tf-idf的计算公式为: tf-idf = tf * idf 其中,tf表示词频,计算公式为: tf = (词汇在文档中出现的次数) / (文档中词汇总数) idf表示逆文档频率,计算公式为: idf = log(文档总数 / 包含该词汇的文档数) 将所有文档中的词汇按照tf-idf值进行加权,就可以得到一个向量表示每个文档。这个向量的维度是所有词汇的数量,每个维度对应一个词汇的tf-idf值。由于大多数文档中只包含某些词汇,因此这个向量是非常稀疏的。 tf-idf文本向量化可以用于文本分类文本聚类、信息检索等任务。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值