NLP 理论实践 Task3 特征选择

最新推荐文章于 2019-08-12 15:10:53 发布

甲壳剑齿鸟

最新推荐文章于 2019-08-12 15:10:53 发布

阅读量222

点赞数

分类专栏：笔记 NLP 文章标签： NLP 理论实践特征选择 Datawhale

本文链接：https://blog.csdn.net/u013307195/article/details/93908093

版权

笔记同时被 2 个专栏收录

33 篇文章 0 订阅

订阅专栏

NLP

11 篇文章 0 订阅

订阅专栏

Task3

TF-IDF原理。
文本矩阵化，使用词袋模型，以TF-IDF特征值为权重。（可以使用Python中TfidfTransformer库）
互信息的原理。
使用第二步生成的特征矩阵，利用互信息进行特征筛选。

TF-IDF 原理

TF-IDF（term frequency–inverse document frequency）是一种用于资讯检索与文本挖掘的常用加权技术。TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用，作为文件与用户查询之间相关程度的度量或评级。除了TF-IDF以外，互联网上的搜寻引擎还会使用基于连结分析的评级方法，以确定文件在搜寻结果中出现的顺序。

在一份给定的文件里，词频（term frequency，TF）指的是某一个给定的词语在该文件中出现的次数。这个数字通常会被正规化，以防止它偏向长的文件。（同一个词语在长文件里可能会比短文件有更高的词频，而不管该词语重要与否。）对于在某一特定文件里的词语ti 来说，它的重要性可表示为：

$\mathrm{tf_{i,j}} = \frac{n_{i,j}}{\sum_k n_{k,j}}$
以上式子中 $n_{i,j}$ 是该词在文件dj中的出现次数，而分母则是在文件dj中所有字词的出现次数之和。