em notes

最新推荐文章于 2021-12-26 23:22:27 发布

aalbertini

最新推荐文章于 2021-12-26 23:22:27 发布

阅读量729

点赞数

分类专栏： dm 文章标签：文档算法 2010

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/aalbertini/article/details/6289360

版权

dm 专栏收录该内容

51 篇文章 0 订阅

订阅专栏

零

K 类个数， M term个数， N doc个数。

一

qmk是term m在类k中出现的概率。

16.14式的左边含义就是在模型未知参数theta的情况下，类k中包含文档d的概率

右边就是d内的所有term出现在类k中的概率连乘积，与d内未出现的term的补(1-q)的连乘积

二

和16.14式不同的是，无wk了。

那么16.15左式的含义就是，在该模型未知参数下，文档d出现在该模型下的概率。

Alpha k是每个类的先验概率。

上式右边就是文档d出现在类k的概率，然后加权求和

三

最大化步，重新评估模型参数qmk, alpha k

r(nk) 是文档dn 率属于类k的概率

I(tm, dn)，如果term m在文档dn中出现则为1，否则为0.

那么这里的qmk，即term m在类k中出现的概率，实际上就是个加权值（加权的DF）。分母是类k中所有文档的概率之和，分子是类k中包含了term m的文档的概率之和。

alpha k是先验概率，表示类k的大小。那么就是所有文档率属于类k的概率之和除以文档总数

四

期望步，计算rnk的极大似然值

分子是文档dn在类k中的概率乘以类k的先验概率。（式16.14）

分母是文档dn在所有类中的概率乘以对应类的先验概率得到的和。（式16.15）

因此，文档dn出现在类k中的概率理所当然就是两者之商。

EM算法对initial seeds的要求更严格。一般使用k-means算法得到k个centroid，从而得到先验概率alpha k以及 qmk。

EM算法是generalized k-means。

K-means是硬的分类方法，每个doc只能属于一个类； EM是软的分类方法，每个doc在不同的类中都有一定的概率

具体算法见 weak, em http://blog.csdn.net/aalbertini/archive/2010/08/11/5804318.aspx

初始化

已知k个质心、以及每类中的样本数以及具体样本，因此可以得到：

m_priors, k个先验概率，表示每个类的先验大小

m_num_clusters, 类个数k。一般是输入。

m_model[K][M]，每个类中每个属性的概率，就是上式中qmk的转置形式

m_weights[N][K]，每个文档在每个类中的概率，就是16.14/16.15得到的矩阵。初始值应该为硬分类的结果，即其中每行只有1个1，其他都为0。就是上式中的rnk

M step

根据 m_priors, m_weights 重新计算m_model

E step

根据 m_priors, m_model 重新计算 m_weights。当达到退出条件时结束

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

aalbertini CSDN认证博客专家 CSDN认证企业博客

码龄17年

254: 原创

13万+: 周排名

232万+: 总排名

53万+: 访问

: 等级

8005: 积分

55: 粉丝

11: 获赞

91: 评论

53: 收藏

私信

关注

热门文章

分类专栏

c/c++ 31篇
dm 51篇
java 2篇
linux/unix 35篇
math 5篇
oracle 3篇
search 1篇
sh 4篇
topcode 4篇
分布式 13篇
数据结构 10篇
杂 7篇
网络 6篇
cocos2d-x 4篇
lua/c++
cg 1篇
shader 4篇
cg
egl
libco 2篇

最新评论

boost asio 性能与线程安全性
aalbertini 回复 yezishuang: 一个socket上的读和写不需要互斥。两者没有竞争任何东西。读读，写写是可能竞争内部缓冲区所以需要同步
boost asio 性能与线程安全性
yezishuang: 一个io，多个线程，要不要考虑读写互斥呢？ (原则:写完一条再写下一条，读完一条再读下一条)
asio strand为什么比mutex好
aalbertini 回复 sidemap: 不适用strand，你就得为每个handler对象自己加锁。 handler个数可能上万、十万个。使用strand，无需为handler对象使用锁。实际上锁的个数不需要与handler个数相关。
asio strand为什么比mutex好
sidemap: 讲的什么，没有看明白
protobuf中 repeated[Ptr]Field的序列化
qq_29689609: IstreamInputStream 这是个啥

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。