论文阅读之FindingScientificTopics

Finding scientific topics

Author:Thomas L. Griffiths
翻译:(小技巧:从百度搜了https://www.pnas.org/content/101/suppl_1/5228.full)之后点击阅读全文后复制到googleChrome浏览器上然后点击翻译233

  1. 摘要
  2. 生成
Abstract 摘要

在这里插入图片描述
总结了一下这篇文章的目的:用概率上的事儿来分析一个词最有可能在哪一个大类的文章中出现(比如“n维空间”、“秩”就很可能在高代模块里出现,这样子)。那个关键的概率用的是Dirichlet相关。应用:评估不同学科之间的相关度;从文章里的单词来看你的文章最有可能是哪个/哪些主题;评估热门主题

Document,Topics, and Statistical Inference

在这里插入图片描述在这里插入图片描述定义了各种概率,P(wi)=∑P(wi|zi=j)P(zi=j)是说,某个字符wi出现在一个Document中的概率,可以看成两步,第一步找到它所在的主题1~T中的某个j P(zi=j),第二步是找到该主题下的单词出现概率P(wi|zi=j)。要想考察该Document中wi单词出现概率,就要遍历所有的主题求出p(wi)

Using Gibbs Sampling to Discover Topics

在这里插入图片描述在这里插入图片描述在这里插入图片描述
大概就是假定了几个数学模型,然后开始算出后验分布…这里我是真的不行了orz有时间再来更新【下次一定.jpg】

图形示例

到了我最喜欢的xjb扯实验环节了
在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述
第一张图:黑白分明的那个代表主题,b代表文档,而一个个像素就是一个个单词,c的是看不同方法的收敛速度,显然Gibbs收敛速度较好。
第二张图:迭代次数的不同,可看出逐渐趋于稳定。大概在迭代次数>200的时候就已经比较能看出结果了。

Model Selection在这里插入图片描述

这个渣翻译…P(w|z,T)咋就瓦特了orz

应用部分

The Topics of Science
主题与词

在这里插入图片描述在这里插入图片描述
在这里插入图片描述在这里插入图片描述第一张图可以看出,在300次迭代左右的效果比较好。
第二张图那个强对角线矩阵可看出不同主题对应的出现频率最高的前五个词。以及在对角线之外的“马赛克”可以看出主题与主题之间的相互关系,有些主题之间联系比较紧密,另一些则比较干净。

热门话题和热门话题

在这里插入图片描述
这里的冷门话题不是说一直很少有人关注的,而是曾经很热而最近变冷的。

标记摘要

在这里插入图片描述
这里可以通过颜色反映出不同词的被使用频率,而右上角的上标则表示了这个单词所属的主题。你可以根据这一段文字看出其比较关键的内容以及根据角标找到其属于哪一类内容。

Conclusion

在这里插入图片描述
【嘛…先摘抄成这样吧,等有空补补数学八卦再回来证一些】

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值