lda主题模型困惑度_机器学习-LDA主题模型笔记

最新推荐文章于 2024-04-24 15:30:16 发布

虚·伪

最新推荐文章于 2024-04-24 15:30:16 发布

阅读量2.4k

点赞数 2

文章标签： lda主题模型困惑度

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_34287049/article/details/112833838

版权

LDA常见的应用方向：信息提取和搜索(语义分析)；文档分类/聚类、文章摘要、社区挖掘；基于内容的图像聚类、目标识别(以及其他计算机视觉应用)；生物信息数据的应用;对于朴素贝叶斯模型来说，可以胜任许多文本分类问题，但无法解决语料中一词多义和多词一义的问题--它更像是词法分析，而非语义分析。如果使用词向量作为文档的特征，一词多义和多词一义会造成计算文档间相似度的不准确性。LDA模型通过增加“主题”的方...

摘要由CSDN通过智能技术生成

LDA常见的应用方向：

信息提取和搜索(语义分析)；文档分类/聚类、文章摘要、社区挖掘；基于内容的图像聚类、目标识别(以及其他计算机视觉应用)；生物信息数据的应用;

对于朴素贝叶斯模型来说，可以胜任许多文本分类问题，但无法解决语料中一词多义和多词一义的问题--它更像是词法分析，而非语义分析。如果使用词向量作为文档的特征，一词多义和多词一义会造成计算文档间相似度的不准确性。LDA模型通过增加“主题”的方式，一定程度的解决上述问题：

一个词可能被映射到多个主题中，即，一词多义。多个词可能被映射到某个主题的概率很高，即，多词一义。

LDA涉及的主要问题

1)共轭先验分布

2)Dirichlet分布

3)LDA模型

Gibbs采样算法学习参数

共轭先验分布

由于x为给定样本，P(x)有时被称为“证据”，仅仅是归一化因子，如果不关心P(θ|x)的具体值，只考察θ取何值时后验概率P(θ|x)最大，则可将分母省去。

在贝叶斯概率理论中，如果后验概率P(θ|x)和先验概率p(θ)满足同样的分布律，那么，先验分布和后验分布被叫做共轭分布，同时，先验分布叫做似然函数的共轭先验分布。

Dirichlet分布

在学习Dirichlet分布之前先复习以下二项分布的最大似然估计：

投硬币试验中，进行N次独立试验，n次朝上，N-n次朝下。假定朝上的概率为p，使用对数似然函数作为目标函数：

上述过程的理论解释

投掷一个非均匀硬币，可以使用参数为θ的伯努利模型，θ为硬币为正面的概率，那么结果x的分布形式为：

两点分布/二项分布的共轭先验是Beta分布，它具有两个参数α和β，Beta分布形式为

先验概率和后验概率的关系

根据似然和先验：

计算后验概率：

后验概率是参数为(k+α,n-k+β)的Beta分布，即：伯努利分布/二项分布的共轭先验是Beta分布。

参数α、β是决定参

最低0.47元/天解锁文章

关注

2
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
lda主题模型困惑度_机器学习-LDA主题模型笔记

LDA常见的应用方向：信息提取和搜索(语义分析)；文档分类/聚类、文章摘要、社区挖掘；基于内容的图像聚类、目标识别(以及其他计算机视觉应用)；生物信息数据的应用;对于朴素贝叶斯模型来说，可以胜任许多文本分类问题，但无法解决语料中一词多义和多词一义的问题--它更像是词法分析，而非语义分析。如果使用词向量作为文档的特征，一词多义和多词一义会造成计算文档间相似度的不准确性。LDA模型通过增加“主题”的方...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。