自然语言处理（三）主题模型

最新推荐文章于 2024-04-24 15:30:16 发布

谦芊珺

最新推荐文章于 2024-04-24 15:30:16 发布

阅读量641

点赞数

分类专栏：自然语言处理文章标签：自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Yolanda71/article/details/76100744

版权

自然语言处理专栏收录该内容

6 篇文章 0 订阅

订阅专栏

为了解决“一词多义”和“多词一意”的问题，引入“主题”

LDA本质是一个三层贝叶斯网络

1、共轭分布

1、Beta分布是二项分布的共轭先验分布
2、Dirichlet分布是多项分布的共轭先验分布

Dirichlet分布的参数 $[\alpha_{1},\alpha_{2},....,\alpha_{n}]$ ，一般 $\alpha$ 都取一样的值。

$\alpha=1\quad$ 均匀分布
$\alpha>1\quad$ 主题分布相等的概率增大
$\alpha<1\quad$ 某一主题突出的概率增大

2、LDA模型

LDA模型框图如下图所示
这里写图片描述

流程如下：

1、取 $\alpha$ ,用 $Dir(\alpha)$ 采样得到主题分布 $v_{m}$
2、对 $v_{m}$ 采样得到某一主题
3、取 $\beta$ ,用 $Dir(\beta)$ 对每个主题分别采样得到词分布 $\varphi_{k}$
4、取得到的主题的对应的词分布，
5、在词分布中采一个词

3、LDA问题

LDA问题的已知是：已知词语 $w$ (可观测),已知先验超参数 $\alpha$ 和 $\beta$

LDA问题的所求是：主题z，主题分布 $\theta$ ,词分布 $\varphi$

4、Gibbs采样

Gibbs采样是一个为词语标记主题的算法。其流程如下：
1、随机为文本中每个词分配主题
2、统计：a.每个主题z下出现词t的数量. b.每个文档m下出现主题z的数量
3、计算 $P(z_{i}|z_{i-1,},w)$ ,返回步骤2，迭代。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
自然语言处理（三）主题模型

为了解决“一词多义”和“多词一意”的问题，引入“主题”LDA本质是一个三层贝叶斯网络1、共轭分布1、Beta分布是二项分布的共轭先验分布 2、Dirichlet分布是多项分布的共轭先验分布Dirichlet分布的参数[α1,α2,....,αn][\alpha_{1},\alpha_{2},....,\alpha_{n}]，一般α\alpha都取一样的值。α=1\alpha=1\quad
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。