TF, IDF和TF-IDF

最新推荐文章于 2021-09-21 12:14:51 发布

weixin_30693183

最新推荐文章于 2021-09-21 12:14:51 发布

阅读量157

点赞数

原文链接：http://www.cnblogs.com/ylxn/p/10213420.html

版权

在相似文本的推荐中，可以用TF-IDF来衡量文章之间的相似性。

一、TF（Term Frequency）

TF的含义很明显，就是词出现的频率。

公式：

在算文本相似性的时候，可以采用这个思路，如果两篇文章高频词很相似，那么就可以认定两片文章很相似。

二、IDF（Inverse Document Frequency）

IDF为逆文档频率。

公式：

一个词越在语料库出现的次数越多，则权重应该越不重要；反之越少则应该越重要。

比如，如果要检索两个文档的相似度，通过统计权重大的词来进行匹配更为合理，如果统计词频高的词汇，例如很多文章都有（如果，很多，反之这些词汇），那么根本就抓不住相似性的衡量指标。如果两篇描述动物的文章我们如果能统计一些共有的权重较高的词，例如（海洋，鱼）等等则相对来说能更好的当作相似指标来进行计算。

三、TF-IDF

目的：综合考虑TF和IDF。

公式：

当一个词的词频很高并且逆文档率很高则越能代表这片文章的内容。

转载于:https://www.cnblogs.com/ylxn/p/10213420.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_30693183

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

TF-IDF 详解

xiaoQL520的博客

10-27

2417

TF-IDF(Term Frequency–Inverse Document Frequency)是一种统计方法，用以评估一个“词”对于一个文件集或一个语料库中的其中一份文件的重要程度。“词”的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。其中，TF是词频(Term Frequency)，IDF是逆向文件频率(Inverse Document Freque...

TF-IDF

abc1234564546的博客

08-03

678

TF-IDF自然语言处理

参与评论您还未登录，请先登录后发表或查看评论

TF与IDF

starking的博客

09-21

563

TF（term frequency）即词频，指的是一个词在一个文档中出现的频次。显而易见，出现的越多，这个词的权重越高，它越重要。如：帅哥，靓仔这 IDF（inverse document frequency）即逆向文档频率，指的是一个词在所有文档里出现的频次。频次越高，权重越低，这个词体现不出文档之间的区分度，对文档的相关度贡献就低。如：the，and，的，你，我，他这类词在所有文档中都存在，它对文档的区分度贡献就低。参考官网：相关度评分背后的理论 | Elasticsearch:.

[机器学习]TF-IDF是什么

Harry的博客

08-06

3749

0 前言在信息检索与文本挖掘中经常遇见单词的 tf-idf (term frequency - inverse document frequency)，这个值的大小能够体现它在文本集合中的某一个文档里的重要性。 1 什么是TF-IDF 举个例子来说，有一篇100字的短文，其中「猫」这个词出现了3 次。那么这篇短文中「猫」的词频如果这里有 10000000 篇文章，其中有「猫」这个词的却文章只有 1000个，那么「猫」对应所有文本，也就是整个语料库的逆向文件频率这里 logloglog取 10为底。

TF-IDF介绍及应用

lien0906的专栏

10-29

1274

TF-IDF 基本概念 TF-IDF（term frequency–inverse document frequency）是一种用于信息检索与数据挖掘的常用加权技术。TF指词频，IDF指逆向文件频率。主要用于评估某个字词对于一篇文章或一个语料库里的一篇文章的重要性。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜寻引...

tf-idf_tf-idf_

10-01

TF-IDF（Term Frequency-Inverse Document Frequency）是一种在信息检索和文本挖掘领域广泛使用的权重计算方法，用于评估一个词在文档中的重要性。这个概念基于两个主要因素：词频（Term Frequency, TF）和逆文档...

TF-IDF.zip_TF-IDF java_java tf idf_tf idf_tf-idf

09-14

TF-IDF（Term Frequency-Inverse Document Frequency）是一种在信息检索和自然语言处理中广泛使用的统计方法，用于评估一个词在文档集合中的重要性。在Java编程环境下，TF-IDF可以帮助我们提取文本的关键信息，理解...

TF-IDF.py.zip_TF-IDF WEIGHT_tf-idf_tf_idf_特征提取

09-15

TF-IDF（Term Frequency-Inverse Document Frequency）是一种在信息检索和自然语言处理中广泛使用的文本特征表示方法。它能够衡量一个词在文档中的重要性，适用于文档集合的特征提取，帮助我们理解文档的主题和区分...

tf-idf.zip_Information Retrival_python IR_python TF-IDF_tf-idf

09-15

TF-IDF（Term Frequency-Inverse Document Frequency）是一种在信息检索和文本挖掘领域广泛使用的统计方法，用于评估一个词在文档中的重要性。它基于两个概念：词频（Term Frequency, TF）和逆文档频率（Inverse ...

GetFileTimes.rar_IF-IDF_TF_java TF-IDF_tf idf_tf idf java

09-23

标题中的"GetFileTimes.rar"可能是一个包含源代码和数据的压缩文件，专门用于实现基于Java的TF-IDF（Term Frequency-Inverse Document Frequency）算法。IF-IDF是TF-IDF的一种变体，它考虑了词的重要性。TF-IDF是一...

TF-IDF及其算法

weixin_34290000的博客

07-17

3581

概念 TF-IDF（term frequency–inverse document frequency）是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜寻引擎应用，作为文...

TF-IDF与余弦相似性的应用（一）：自动提取关键词

wangqz1027的专栏

06-02

6847

作者：阮一峰日期： 2013年3月15日这个标题看上去好像很复杂，其实我要谈的是一个很简单的问题。有一篇很长的文章，我要用计算机提取它的关键词（Automatic Keyphrase extraction），完全不加以人工干预，请问怎样才能正确做到？这个问题涉及到数据挖掘、文本处理、信息检索等很多计算机前沿领域，但是出乎意料的是，有一个非常简单的经

TF-IDF算法讲解

热门推荐

qq_45893319的博客

07-31

4万+

什么是 TF-IDF 算法？ TF（全称TermFrequency），中文含义词频，简单理解就是关键词出现在网页当中的频次。 IDF（全称InverseDocumentFrequency），中文含义逆文档频率，简单来说就是该关键词出现在所有文档里面的一种数据集合。在信息检索中，tf-idf或TFIDF（术语频率 – 逆文档频率的缩写）是一种数字统计，旨在反映单词对集合或语料库中的文档的重要程度。它经常被用作搜索信息检索，文本挖掘和用户建模的加权因子。tf-idf值按比例增加一个单词出现在文档中的次数，并

TF-IDF算法介绍及实现

嘻哈吼嘿呵的博客

09-17

3537

1、TF-IDF算法介绍 TF-IDF（term frequency–inverse document frequency，词频-逆向文件频率）是一种用于信息检索（information retrieval）与文本挖掘（text mining）的常用加权技术。 TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要...

TF-IDF的简单理解

摆渡者

03-15

3944

1、TF-IDF简介 TF：Term Frequency 词频，指的是给定一个词在该文档中出现的次数 IDF：Inverse Document Frequency 逆文档频率可以简单的理解成：一个词语在一篇文章中出现的次数越多，同时在其他的所有文档中出现的次数越少，越能够代表该文章2、TF IDF计算2.1 TF TF指的是某一个给定的词语在该文档中出现的次数，由于文档的长度不一，防止TF偏向...

【机器学习】详解 TF-IDF 与 TF-IWF

闻韶

05-27

7072

【机器学习】详解 TF-IDF 与 TF-IWF

tf-idf 和卡方的区别

dataastron的博客

02-07

1045

tf-idf倾向于选择区有文档区分度的词，而卡方倾向于选择有类别区分度的词。而我们的目标是分类，当然要选择有类别区分度的词。比如，镜头和华为这两个词的文档区分度都很高。然而，华为可能出现在“科技”， “摄影”, “生活“, “地区”等多个类别中，镜头基本上都集中在摄影这个类别中。我们可以很大程度上这样判断，如果文章中出现了”镜头“一词，那么它很可能是属于摄影分类的。因为卡方有”低频词缺陷”，不能

词集，词袋，TF-IDF, 词汇表的关系和区别

一路向北

05-02

3805

本文主要以垃圾邮件识别为例，介绍常见的文本处理方法以及常见的文本处理相关的机器学习算法。上半部主要介绍垃圾邮件识别使用的数据集，介绍使用的特征提取方法，包括词袋模型和TF-IDF模型、词汇表模型。本文下半部主要介绍使用的模型以及对应的验证结果，包括朴素贝叶斯、支持向量基和深度学习。前言垃圾邮件作为英特网中最具有争议的副产品，对于企业邮箱用户的影响首先就在于给日常办公和邮箱管理者带来额外负担。根据不...

基于java的校园美食交流系统设计与实现.docx