sklearn 文本处理

最新推荐文章于 2024-07-30 11:11:01 发布

weixin_30343157

最新推荐文章于 2024-07-30 11:11:01 发布

阅读量240

点赞数

文章标签：人工智能

原文链接：http://www.cnblogs.com/mtcnn/p/9423105.html

版权

from sklearn.feature_extraction.text import **

1. 向量的统计、tf-idf 的计算

考虑如下预料，三行 ⇒ 三个文档，不重复的单词共有 8 个，

corpus = ['I love you',
      'You love him',
      'He loves me']

from sklearn.feature_extraction.text import CountVectorizer
                            # 大写字母开头，显然是一个类
vectorizer = CountVectorizer()
csr_mat = vectorizer.fit_transform(corpus)
print(type(csr_mat))
            # scipy.sparse.csr.csr_matrix
            # 稀疏矩阵，一般而言，预料信息都是十分海量的，出于节省内存的考虑，将其作为稀疏形式存储。
print(csr_mat)
print(csr_mat.todense())

再来计算 tf-idf 的值：

from sklearn.feature_extraction.text import TfidfTransformer
transformer = TfidfTransformer()
tfidf = transformer.fit_transform(csr_mat)
print(type(tfidf))
print(tfidf)
print(tfidf.todense())
        # 最终算下来会与得到的结果有一定的不同，
        # 这是因为在 sklearn 内部会做一些去停用词、平滑、正则化等的操作，

另外，需要注意的是：note that CountVectorizer discards “words” that contain only one character, such as “s”。中文也是如此，我 和 I 都不会被 CountVectorizer 当作 term。

教你成为全栈工程师(Full Stack Developer) 三十三-利用scikit-learn计算tf-idf做文本词频分析 - SharEDITor - 关注大数据技术
 TF-IDF与余弦相似性的应用（一）：自动提取关键词

阮老师的这篇文章，计算 idf 时取的对数是以 10 为底的对数，则蜜蜂的 tf-idf 为 201000⋅log10250/0.484≈0.0543