如何画lda投影结果_独家 | LDA主题建模和pyLDAvis可视化

本文约1700字,建议阅读6分钟本文的数据来自美国著名电视节目《老友记》。作者用python-Beautiful Soup抓取了224集中六个主要角色的全部剧本。角色有Ross Geller,Rachel Green,Monica Geller,Phoebe Buffay,Joey Tribbiani和Chandler Bing。本文将使用LDA对《老友记》进行主题建模。

标签:自然语言处理数据可视化,主题建模

流行的主题建模算法包括潜在语义分析*(LSA),层次狄利克雷过程*(HDP)和潜在狄利克雷分配*(LDA),其中LDA在实践中由于效果出众被广泛采用。

主题模型是一组算法/统计模型,可以揭示文档集中的隐藏主题。例如,“浪漫”,“恐怖”和“家庭”将在与电影有关的文档中更频繁地出现。“技术”,“计算机”和“算法”在计算机科学文档中的出现频率会更高。

pyLDAvis

pyLDAvis是一个交互式LDA可视化python软件包。我的LDA建模结果是什么样的?我截取了一个pyLDAvis结果图,如下图所示。圆圈区域表示每个主题在整个语料库中的重要性,圆圈中心之间的距离表示主题之间的相似性。对于每个主题,右侧的直方图列出了前30个最相关的字词。LDA帮助我提取了6个主要主题。以该主题为例,我看到的最相关的术语是光明节(hanukkah),化石(fossil),古鲁(guru)等。对于我们的古生物学家,教授和Geller博士而言,这很可能是一个主题。我已将pyLDAvis分析结果保存为.html文件,您可以从GitHubrepoÿ

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值