Spark MLlib 特征工程系列—特征提取 TF-IDF

Spark MLlib 特征工程系列—特征提取 TF-IDF

TF-IDF是文本挖掘中广泛使用的一种特征向量化方法,用于反映术语对语料库中文档的重要性。

Term Frequency (TF)

TF,即词频,是衡量一个词在文档中出现频率的指标。假设某词在文档中出现了( n )次,而文档总共包含( N )个词,则该词的TF定义为:

image-20240812153844164

Inverse Document Frequency (IDF)

IDF,即逆文档频率,是对词普遍性的度量,反映了词的稀有程度。IDF越高,说明词越独特,对于区分文档具有更大的价值。IDF的计算公式为:

image-20240812153857655

如果我们仅使用词频来衡量重要性,很容易过分强调那些出现频率很高但几乎不包含文档信息的术语,例如“a”、“the”和“of”。如果某个术语在整个语料库中出现的频率很高,则意味着它不包含有关特定文档的特殊信息。逆

由于使用了对数,如果某个术语出现在所有文档中,则其 IDF 值变为 0。请注意,应用了平滑项以避免语料库之外的术语除以零。 通过取对数,可以避免数值过大的问题,同时保证了IDF的单调递减特性。

  • 16
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

不二人生

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值