idf inverse document frequency

http://baike.baidu.com/view/6219237.html


逆文档频率

  (IDF inverse document frequency)又称反文档频率,是文档频率(DF document frequency)的倒数主要用于概念TF-IDF(term frequency–inverse document frequency)中。  TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜寻引擎应用,作为文件与用户查询之间相关程度的度量或评级。除了TF-IDF以外,因特网上的搜寻引擎还会使用基于连结分析的评级方法,以确定文件在搜寻结果中出现的顺序。 TFIDF的主要思想是:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。TFIDF实际上是:TF * IDF,TF词频(Term Frequency),IDF反文档频率(Inverse Document Frequency)。TF表示词条在文档d中出现的频率。IDF的主要思想是:如果包含词条t的文档越少,也就是n越小,IDF越大,则说明词条t具有很好的类别区分能力。如果某一类文档C中包含词条t的文档数为m,而其它类包含t的文档总数为k,显然所有包含t的文档数n=m+k,当m大的时候,n也大,按照IDF公式得到的IDF的值会小,就说明该词条t类别区分能力不强。但是实际上,如果一个词条在一个类的文档中频繁出现,则说明该词条能够很好代表这个类的文本的特征,这样的词条应该给它们赋予较高的权重,并选来作为该类文本的特征词以区别与其它类文档。这就是IDF的不足之处.

编辑本段例子

  有很多不同的数学公式可以用来计算TF- IDF。词频 (TF) 是一词语出现的次数除以该文件的总词语数。假如一篇文件的总词语数是100个,而词语“母牛”出现了3次,那么“母牛”一词在该文件中的词频就是 0.03 (3/100)。一个计算文件频率 (DF) 的方法是测定有多少份文件出现过“母牛”一词,然后除以文件集里包含的文件总数。所以,如果“母牛”一词在1,000份文件出现过,而文件总数是 10,000,000份的话,其文件频率就是 0.0001 (1000/10,000,000)。最后,TF-IDF分数就可以由计算词频除以文件频率而得到。以上面的例子来说,“母牛”一词在该文件集的TF- IDF分数会是 300 (0.03/0.0001)。这条公式的另一个形式是将文件频率取对数。

编辑本段TFIDF的理论依据及不足之处

  TFIDF算法是建立在这样一个假设之上的:对区别文档最有意义的词语应该是那些在文档中出现频率高,而在整个 文档集合的其他文档中出现频率少的词语,所以如果特征空间坐标系取TF词频作为测度,就可以体现同类文本的特点。另外考虑到单词区别不同类别的能力,TFIDF法认为一个单词出现的文本频数越小,它区别不同类别文本的能力就越大。因此引入了逆文本频度IDF的概念,以TF和IDF的乘积作为特征空间坐标系的取值测度,并用它完成对权值TF的调整,调整权值的目的在于突出重要单词,抑制次要单词。但是在本质上IDF是一种试图抑制噪音的加权 ,并且单纯地认为文本频数小的单词就越重要,文本频数大的单词就越无用,显然这并不是完全正确的。IDF的简单结构并不能有效地反映单词的重要程度和特征词的分布情况,使其无法很好地完成对权值调整的功能,所以TFIDF法的精度并不是很高。 此外,在TFIDF算法中并没有体现出单词的位置信息,对于Web文档而言,权重的计算方法应该体现出HTML的结构特征。特征词在不同的标记符中对文章内容的反映程度不同,其权重的计算方法也应不同。因此应该对于处于网页不同位置的特征词分别赋予不同的系数,然后乘以特征词的词频,以提高文本表示的效果。
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
### 回答1: 文档频率(document frequency)是指在一个给定的文献集合中,某个词出现的文档数量。简单来说,就是指包含某个词的文档数目。文档频率是信息检索中用于衡量某个词对于整个文献集合的重要程度的指标之一,同时它也是计算逆文档频率(inverse document frequencyIDF)的基础。 ### 回答2: 文档频率(document frequency)是信息检索领域中一项重要的指标,也称为词语出现文档频率(term document frequency)。其定义为在一个文档集合中,一个特定词语出现的文档数量。由于文档集合的大小不同,因此一般将文档频率转化为百分比或计算出某个阈值下的文档频率。 文档频率的意义在于衡量一个词语在整个文档集合中的权重。如果一个词语出现在了所有文档中,那么它对于区分不同文档的作用就不大了;反之,如果一个词语只出现在极少数文档中,那么它对于区分不同文档的作用就十分显著。因此,文档频率可以帮助信息检索系统为用户提供更加相关的结果,也可以帮助决策者在分析文档集合时找出高频出现的词语和关键字。 文档频率还有一些相关的指标,例如逆文档频率(inverse document frequency)和文档频率-逆文档频率(tf-idf)。逆文档频率用于衡量一个词语的重要性,计算公式为log(N/DF),其中N为文档总数,DF为该词语出现的文档数量。文档频率-逆文档频率则结合了文档频率和逆文档频率,用于评估一个词语在某个文档中的重要性。 总之,文档频率是信息检索和文本挖掘领域中常用的指标之一,其可以帮助我们评估一个词语在整个文档集合中的权重和重要性,进而提升信息检索和文本分析的准确性和效率。 ### 回答3: 文档频率是信息检索中的一个重要概念,用于衡量一个术语在多少个文档中出现过。通俗地说,文档频率就是一个词汇在多少篇文档中出现过。 文档频率是信息检索中非常重要的概念,通过文档频率可以帮助我们识别一些普遍的词汇、停用词,以及某些针对特定领域的专业术语。文档频率常用于关键词提取、TF-IDF算法等领域。 在计算文档频率时,需要先定义一个术语和一个文档集合。假设我们需要计算“文档”的文档频率,那么需要遍历整个文档集合,统计包含“文档”这个词汇的文档数量,然后用总的文档数目除以这个数目就可以得到“文档”的文档频率。 公式如下: 文档频率=包含该词的文档数/总文档文档频率越高,表示该词越普遍,反之则表示该词越稀少。在进行信息检索时,我们可以利用文档频率来对搜索结果进行评价和排序,优先显示文档频率高的结果,因为这样可能是搜索用户真正需要的内容。 需要注意的是,当我们进行文本分析时,可能会碰到一些政治、宗教和色情等敏感主题。这些主题可能会诱导一些不良分子使用较为隐晦的词汇,所以在使用文档频率时,需要特别小心。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值