sklearn: 利用TruncatedSVD做文本主题分析

本文展示了如何利用sklearn的TruncatedSVD进行文本主题分析。通过TF-IDF预处理文本,将文本转化为向量,然后通过TruncatedSVD降维,得到每个文本在不同主题上的分布。lsa.components_提供了词语在各主题上的权重,从而可以识别出主题关键词和代表性文本。
摘要由CSDN通过智能技术生成

    本文是一个使用sklearn中的TruncatedSVD进行文本主题分析的简要demo。通过主题分析,我们可以得到一个语料中的关键主题,即各个词语在主题中的重要程度,各个文章在各个主题上的倾向程度。并且可以根据它们,得到主题对应的关键词以及代表性文本。我前面写的一篇数据分析 一文看评论里的中超风云 就用到了主题分析的一种:

    下面介绍的形式是LSI(潜在语义分析),主题模型中较早也较为简单的一种,在sklearn库中以TruncatedSVD的形式实现,使用非常方便,现在进入代码:

In [1]:

from sklearn.decomposition import TruncatedSVD           # namely LSA/LSI(即潜在语义分析)
from sklearn.feature_extraction.text import TfidfVectorizer
import numpy as np

使用TF-IDF对文本进行预处理,将文本化为向量的表示形式

TfidfVectorizer的基本用法以及对中文的处理可以见我之前的一篇博文 sklearn: TfidfVectorizer 中文处理及一些使用参数

In [2]:

# ♪ Until the Day ♪ by JJ Lin 林俊杰
docs = ["In the middle of the night",
       
  • 10
    点赞
  • 34
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值