sklearn: 利用TruncatedSVD做文本主题分析

最新推荐文章于 2024-08-06 00:48:08 发布

blmoistawinde

最新推荐文章于 2024-08-06 00:48:08 发布

阅读量1.1w

点赞数 10

分类专栏： python 自然语言处理文章标签： python sklearn 自然语言处理 LSI 主题模型

本文链接：https://blog.csdn.net/blmoistawinde/article/details/83446529

版权

本文展示了如何利用sklearn的TruncatedSVD进行文本主题分析。通过TF-IDF预处理文本，将文本转化为向量，然后通过TruncatedSVD降维，得到每个文本在不同主题上的分布。lsa.components_提供了词语在各主题上的权重，从而可以识别出主题关键词和代表性文本。

摘要由CSDN通过智能技术生成

本文是一个使用sklearn中的TruncatedSVD进行文本主题分析的简要demo。通过主题分析，我们可以得到一个语料中的关键主题，即各个词语在主题中的重要程度，各个文章在各个主题上的倾向程度。并且可以根据它们，得到主题对应的关键词以及代表性文本。我前面写的一篇数据分析一文看评论里的中超风云就用到了主题分析的一种：

下面介绍的形式是LSI（潜在语义分析），主题模型中较早也较为简单的一种，在sklearn库中以TruncatedSVD的形式实现，使用非常方便，现在进入代码：

In [1]:

from sklearn.decomposition import TruncatedSVD           # namely LSA/LSI(即潜在语义分析)
from sklearn.feature_extraction.text import TfidfVectorizer
import numpy as np

使用TF-IDF对文本进行预处理,将文本化为向量的表示形式

TfidfVectorizer的基本用法以及对中文的处理可以见我之前的一篇博文 sklearn: TfidfVectorizer 中文处理及一些使用参数

In [2]:

# ♪ Until the Day ♪ by JJ Lin 林俊杰
docs = ["In the middle of the night",

最低0.47元/天解锁文章

blmoistawinde

关注

10
点赞
踩
34

收藏

觉得还不错? 一键收藏
0
评论
sklearn: 利用TruncatedSVD做文本主题分析

本文是一个使用sklearn中的TruncatedSVD进行文本主题分析的简要demo。通过主题分析，我们可以得到一个语料中的关键主题，即各个词语在主题中的重要程度，各个文章在各个主题上的倾向程度。并且可以根据它们，得到主题对应的关键词以及代表性文本。我前面写的一篇数据分析一文看评论里的中超风云就用到了主题分析的一种：下面介绍的形式是LSI（潜在语义分析），主题模型中较早也...
复制链接

扫一扫

专栏目录