【NLP】主题模型文本分类

本文介绍了自然语言处理中的LDA主题模型,详细阐述了LDA的原理,包括贝叶斯模型、多项式分布、狄利克雷分布等,并通过程序实现了LDA模型的构建与SVM分类,应用于《笑傲江湖》、《神雕侠侣》、《射雕英雄传》的文本分类,达到了较高的精度、召回率和F1值。
摘要由CSDN通过智能技术生成

自然语言处理之主题模型文本分类

LDA主题模型

1.主题模型(Topic Model)

主题模型是以非监督学习的方式对文集的隐含语义结构进行聚类的统计模型。主题模型主要被用于自然语言处理中的语义分析和文本挖掘问题,例如按主题对文本进行收集、分类和降维。隐含狄利克雷分布是常见的主题模型。

2.隐含狄利克雷分布LDA(Latent Dirichlet Allocation)

1)贝叶斯模型

LDA模型基于贝叶斯模型,
在这里插入图片描述

2)多项式分布

多项分布,是二项分布扩展到多维的情况。 多项分布是指单次试验中的随机变量的取值不再是0-1的,而是有多种离散值可能。概率密度函数为:
在这里插入图片描述

3)狄利克雷分布

Dirichlet的概率密度函数为:

在这里插入图片描述

其中,
在这里插入图片描述

4)共轭分布

在贝叶斯概率理论中,如果后验概率 P ( θ ∣ x ) P(θ|x) P(θx)和先验概率 p ( θ ) p(θ) p(θ)满足同样的分布律,那么,先验分布和后验分布被叫做共轭分布,同时,先验分布叫做似然函数的共轭先验分布。狄利克雷(Dirichlet)分布是多项式分布的共轭分布。

5)LDA主题模型

假设有 M M M篇文档,对应第d个文档中有有 N d N_d Nd个词。

在这里插入图片描述

目标是找到每一篇文档的主题分布和每一个主题中词的分布。在LDA模型中,我们需要先假定一个主题数目 K K K,这样所有的分布就都基于 K K K个主题展开。
在这里插入图片描述

LDA假设文档主题的先验分布是Dirichlet分布,即对于任一文档 d d d, 其主题分布 θ d \theta_d θd为:
θ d = D i r i c h l e t ( α ⃗ ) \theta_d = Dirichlet(\vec \alpha) θd=Dirichlet(α )
其中, α \alpha α为分布的超参数,是一个 K K K维向量。

LDA假设主题中词的先验分布是Dirichlet分布,即对于任一主题 k k k, 其词分布 β k \beta_k βk为:
β k = D i r i c h l e t ( η ⃗ ) \beta_k=Dirichlet(\vec \eta) βk=Dirichlet(η )

其中, η \eta η为分布的超参数,是一个 V V V维向量。 V V V代表词汇表里所有词的个数。

对于数据中任一一篇文档 d d d中的第 n n

  • 0
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值