主题模型之LSA代码

最新推荐文章于 2023-01-04 17:25:42 发布

机智翔学长

最新推荐文章于 2023-01-04 17:25:42 发布

阅读量827

点赞数

分类专栏： NLP 文章标签：机器学习

本文链接：https://blog.csdn.net/GreatXiang888/article/details/107090105

版权

文章目录

环境
CountVectorizer和TfidfVectorizer
- CountVectorizer
- TfidfVectorizer
数据获取
SVD奇异值分解
Truncated SVD

参考： numpy“手撕”文本主题模型之LSA

环境

scikit-learn == 0.22.2
scipy == 1.4.1
numpy == 1.18.1

CountVectorizer和TfidfVectorizer

CountVectorizer

# 将文本中的词语转换为词频矩阵
from sklearn.feature_extraction.text import CountVectorizer
 
vectorizer = CountVectorizer(min_df=1)
 
corpus = [      'This is the first document.',
                'This is the second second document.',
                'And the third one.',
                'Is this the first document?',
                ]
X = vectorizer.fit_transform(corpus)
feature_name = vectorizer.get_feature_names()
print (feature_name)
print (X)
print (X.toarray())

结果：
['and', 'document', 'first', 'is', 'one', 'second', 'the', 'third', 'this']
  (0, 8)	1
  (0, 3)	1
  (0, 6)	1
  (0, 2)	1
  (0, 1)	1
  (1, 8)	1
  (1, 3)	1
  (1, 6)	1
  (1, 1)	1
  (1, 5)	2
  (2, 6)	1

最低0.47元/天解锁文章

机智翔学长

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
2
评论
主题模型之LSA代码

文章目录环境CountVectorizer和TfidfVectorizerCountVectorizerTfidfVectorizer数据获取参考：numpy“手撕”文本主题模型之LSA环境scikit-learn == 0.22.2scipy == 1.4.1numpy == 1.18.1CountVectorizer和TfidfVectorizerCountVectorizer# 将文本中的词语转换为词频矩阵from sklearn.feature_extraction.text im
复制链接

扫一扫

专栏目录