tfidf python 中文实例

最新推荐文章于 2024-05-12 19:03:25 发布

FocusOneThread

最新推荐文章于 2024-05-12 19:03:25 发布

阅读量2.6k

点赞数 3

分类专栏：自然语言处理搜索算法

本文链接：https://blog.csdn.net/guotong1988/article/details/97241204

版权

自然语言处理同时被 2 个专栏收录

166 篇文章 4 订阅 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

搜索算法

49 篇文章 2 订阅

订阅专栏

from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.feature_extraction.text import CountVectorizer

if __name__ == "__main__":
    corpus = ["我 来到 北京 清华大学",  # 第一个文本切词后的结果，词之间以空格隔开
              "他 来到 了 网易 杭研 大厦",  # 第二个文本的切词结果
              "小明 硕士 毕业 与 中国 科学院",  # 第三个文本的切词结果
              "我 爱 北京 天安门"]  # 第四个文本的切词结果
    def cut(sentence):
        return sentence.split(" ")
    vectorizer = CountVectorizer(analyzer="word", tokenizer=cut)  # 将文本中的词语转换为词频矩阵，矩阵元素a[i][j] 表示j词在i个文本下的词频
    transformer = TfidfTransformer()  # 统计每个词语的tf-idf权值
    X = vectorizer.fit_transform(corpus)
    tfidf = transformer.fit_transform(X)  # 第一个fit_transform是计算tf-idf，第

了解本专栏