TF-IDF
- 是一种加权技术。采用一种统计方法,根据字词在文本中出现的次数和在整个语料中出现的文档频率来计算一个字词在整个语料中的重要程度。
- 主要思想:如果某个词或短语在一篇文章中出现的概率高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。
- 作用:用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度
- 优点:能过滤掉一些常见的却无关紧要的词语,同时保留影响整个文本的重要词语。
- 公式如下:
tfidfi,j表示词频 tfi,j 和倒文本词频idfi,j的乘积。TF-IDF值越大,表示该特征词对这个文本的重要性越大。
TF
-
TF(Term Frequency):表示某个关键词在整篇文章中出现的频率。
-
计算公式:
-
其中,分子为特征词 t 在文本 dj 中出现的次数,分母则是文本dj中所有特征词的个数。计算的结果即为某个特征词的词频。
IDF
- IDF(Invers Document Frequency):表示计算倒文本频率。(文本频率是指某个关键词在整个语料所有文章中出现的次数。倒文本频率顾名思义,它是文本频率的倒数,主要用于降低所有文档中一些常见却对文档影响不大的词语的作用。)
- 计算公式:
- |D| 表示语料中文本的总数,|Dti| 表示文本中包含特征词ti的数量。为防止该词语在语料库中不存在,即分母为0,使用 1+|Dti| 作为分母
sklearn工具包下的tfidf
sklearn.feature_extraction.text.TfidfVectorizer