Text mining and analytics第三周学习笔记

指导性问题:

(1)什么是混合模型?一般来说,如何计算从混合模型中观察特定单词的概率?这个概率表达式的一般形式是什么?
(2)混合模型的分量词分布的最大似然估计是什么样的?他们在什么意义上“协作”和/或“竞争”?为什么我们可以使用固定的背景词分布来强制发现的主题词分布,以减少它在常见的(通常是非内容的)词上的概率?
(3)EM算法的基本思想是什么? E步骤通常会做什么? M-step通常会做什么?在两个步骤中,我们通常应用贝叶斯规则?新兴经济体是否收敛到全球最大值?
(4)什么是PLSA?一个PLSA模型有多少个参数?这个数字是如何受到我们开采数据集大小的影响?我们如何调整标准的PLSA,将主题词分布上的优先考虑?
(5)LDA与PLSA有什么不同?两种模式共享什么?
关键短语和概念

在完成阅读和与讲座互动时,请注意以下关键术语或短语。 这些主题将帮助您更好地理解本模块中的内容。

关键术语:

(1)混合模型
(2)组件模型
(3)限制概率
(4)概率潜在语义分析(PLSA)
(5)期望最大化(EM)算法
(6)E步骤和M步骤
(7)隐藏的变量
(8)爬山
(9)本地最大值
(10)潜在狄利克雷分配(LDA)

一、概率主题模型之混合一元语言模型

1.概述

作用:去除背景词(功能词汇)

第一种情况是使用主题作为发行版来生成单词;
第二部分从背景上解释了这个词的不同用法。
这里写图片描述
在每一种情况下,它都是一个概率的乘积,选择一个特定的单词的概率乘以从这个分布中观察单词的概率。
这里写图片描述

混合模型中的一个词的概率是一个不同的单词生成方式的总和。选择该组件模型的概率的乘积乘以实际从模型的该部分观察数据点的概率

混合模型:
这里写图片描述

混合模型的基本思想就是将这两个分布作为一个模型来检索。

提出问题:那我们如何解决参数呢

两种参数:一个是两个措辞的发行版,它们产生主题,另一个是每个主题的覆盖范围。

分析可能性函数:

将它退化到只有一个分布的特殊情况。可以很容易地验证,假设这两个中的一个是1.0,另一个是零。

混合模型比以前的模型更普遍,之前的模型只有一个分布。

小结:

1)数据只是一份文档;
2)两种Unigram语言模型的混合:
这个模型是一个混合模型,包含两个分量,两个单列LM模型,特别是 θd ,它表示文档d的主题;以及 θB ,它代表了一个背景话题,我们可以设置它来吸引普通单词,因为在这个模型中,普通单词会被赋予很高的概率。
3)这些参数可以统称为Lambda,还具有混合权重。
4)似然函数:它覆盖了文档中所有的单词,和以前完全一样。唯一的区别是,现在这里是一个和,而不是一个。
这里写图片描述

由于混合模型的存在,我们还必须引入一个概率来选择特定的分布分量。即用一个产品代替我们词汇中所有独特的单词,而不是让这个产品凌驾于文档中的所有位置。这种形式不同在于将唯一的词的一个交换律用于计算以后的最大似然估计。和往常一样,最大似然估计量只是为了找到最大似然函数的参数。
两种限制:1)主题概率和为1;2)模型选择和为1.

2.估计模型参数

回顾使用混合模型的原因:使用高频词公式筛掉背景词。
思路:假设背景词的 θB 已知,那么接下来就要求 θd ,使得已观测到的高频词达到概率最大。

观察混合模型的行为:

这里写图片描述

1)行为一:不同分布的竞争行为

由于两个限制,所以当背景词的 θB 的概率越高,那么对应的背景词的 θd 的概率越低。

(即当某一分布给某一词越高的概率,那么另一分布给这个词的概率越低。)

这里写图片描述

2)行为二:数据频率的响应——高频率词有高 Pw|θd
  • 首先观察两个文本单词的概率:一个概率为0.9,另一个概率为0.1。
    这里写图片描述

  • 接下来,开始向文档中添加更多的单词。那么只需将似然函数乘以附加项,就可以解释附加项。

当增加背景词的数量时,会使得 P""|θd )变大。而 P"

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
提供的源码资源涵盖了安卓应用、小程序、Python应用和Java应用等多个领域,每个领域都包含了丰富的实例和项目。这些源码都是基于各自平台的最新技术和标准编写,确保了在对应环境下能够无缝运行。同时,源码中配备了详细的注释和文档,帮助用户快速理解代码结构和实现逻辑。 适用人群: 这些源码资源特别适合大学生群体。无论你是计算机相关专业的学生,还是对其他领域编程感兴趣的学生,这些资源都能为你提供宝贵的学习和实践机会。通过学习和运行这些源码,你可以掌握各平台开发的基础知识,提升编程能力和项目实战经验。 使用场景及目标: 在学习阶段,你可以利用这些源码资源进行课程实践、课外项目或毕业设计。通过分析和运行源码,你将深入了解各平台开发的技术细节和最佳实践,逐步培养起自己的项目开发和问题解决能力。此外,在求职或创业过程中,具备跨平台开发能力的大学生将更具竞争力。 其他说明: 为了确保源码资源的可运行性和易用性,特别注意了以下几点:首先,每份源码都提供了详细的运行环境和依赖说明,确保用户能够轻松搭建起开发环境;其次,源码中的注释和文档都非常完善,方便用户快速上手和理解代码;最后,我会定期更新这些源码资源,以适应各平台技术的最新发展和市场需求。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值