自然语言处理期末复习（6）话题模型

最新推荐文章于 2024-06-29 22:11:22 发布

康雨城

最新推荐文章于 2024-06-29 22:11:22 发布

阅读量1.3k

点赞数

分类专栏：自然语言处理软件工程师修炼日记文章标签：话题模型自然语言处理 LSA

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/kangyucheng/article/details/80728616

版权

软件工程师修炼日记同时被 2 个专栏收录

79 篇文章 5 订阅

订阅专栏

自然语言处理

10 篇文章 5 订阅

订阅专栏

一、LAS

1.向量空间模型通过计算文档向量间的相似度来衡量两个文档之间的相关性，常用的相似度为(夹角)余弦相似度。

2.LSA的核心在于将秩r的词项-文档矩阵C进行SVD分解，并寻求词项-文档矩阵的k秩逼近C_k此时我们可以说，在进行潜在语义分析之前，文档被隐含表示成r维空间中的向量，而在潜在语义分析之后，文档被表示为k维空间中的向量，也就是潜在语义空间中的向量，向量的维数缩减为k维。

维数k可以被解释为隐含在文档集合中的话题数量，因此LSA可以被视作一种话题模型

3. LSA要点:

(1) 基于词(项)-文档矩阵归纳语义信息

(2) 基于维数缩减归纳语义信息

(3) 文档和词(项)被视作欧式空间中的点进行计算

二、概率话题模型

1. 混合模型(mixture model)，分布表示为若干部件分布按照一定的比例进行组合。

(1) 文档是关于话题的分布, 不同文档拥有不同的话题比例p(z)。

(2) 话题是定义在词表上的概率分布p(w|z)，不同的话题是定义在词表上的不同分布，与LSA不同，话题有着直观的物理解释。

话题模型是生成模型,文档是话题模型规定的概率过程的产物

(1) 对每一个文档，首先选择一个话题分布p(z)

(2) 对文档中的每一个词位，按照话题分布p(z)选择一个话题

(3) 按照话题-词分布p(w|z)选择一个词

• 在话题模型中，文档中每个词都对应着一个隐含的话题，这些隐含的话题可以通过统计推断的技术从大量的文档集合中提取得到。

2.pLSA是一种概率话题模型，LDA可视作是对pLSA的改进

– 文档视作话题的混合模型

– 话题视作词的不同分布

关注

0
点赞
踩
8

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

康雨城 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。