from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.feature_extraction.text import CountVectorizer
if __name__ == "__main__":
corpus = ["我 来到 北京 清华大学", # 第一个文本切词后的结果,词之间以空格隔开
"他 来到 了 网易 杭研 大厦", # 第二个文本的切词结果
"小明 硕士 毕业 与 中国 科学院", # 第三个文本的切词结果
"我 爱 北京 天安门"] # 第四个文本的切词结果
def cut(sentence):
return sentence.split(" ")
vectorizer = CountVectorizer(analyzer="word", tokenizer=cut) # 将文本中的词语转换为词频矩阵,矩阵元素a[i][j] 表示j词在i个文本下的词频
transformer = TfidfTransformer() # 统计每个词语的tf-idf权值
X = vectorizer.fit_transform(corpus)
tfidf = transformer.fit_transform(X) # 第一个fit_transform是计算tf-idf,第
tfidf python 中文 实例
最新推荐文章于 2024-05-12 19:03:25 发布