Finding scientific topics
Author:Thomas L. Griffiths
翻译:(小技巧:从百度搜了https://www.pnas.org/content/101/suppl_1/5228.full)之后点击阅读全文后复制到googleChrome浏览器上然后点击翻译233
- 摘要
- 生成
Abstract 摘要
总结了一下这篇文章的目的:用概率上的事儿来分析一个词最有可能在哪一个大类的文章中出现(比如“n维空间”、“秩”就很可能在高代模块里出现,这样子)。那个关键的概率用的是Dirichlet相关。应用:评估不同学科之间的相关度;从文章里的单词来看你的文章最有可能是哪个/哪些主题;评估热门主题
Document,Topics, and Statistical Inference
定义了各种概率,P(wi)=∑P(wi|zi=j)P(zi=j)是说,某个字符wi出现在一个Document中的概率,可以看成两步,第一步找到它所在的主题1~T中的某个j P(zi=j),第二步是找到该主题下的单词出现概率P(wi|zi=j)。要想考察该Document中wi单词出现概率,就要遍历所有的主题求出p(wi)
Using Gibbs Sampling to Discover Topics
大概就是假定了几个数学模型,然后开始算出后验分布…这里我是真的不行了orz有时间再来更新【下次一定.jpg】
图形示例
到了我最喜欢的xjb扯实验环节了
第一张图:黑白分明的那个代表主题,b代表文档,而一个个像素就是一个个单词,c的是看不同方法的收敛速度,显然Gibbs收敛速度较好。
第二张图:迭代次数的不同,可看出逐渐趋于稳定。大概在迭代次数>200的时候就已经比较能看出结果了。
Model Selection![在这里插入图片描述](https://i-blog.csdnimg.cn/blog_migrate/09d132595c11047b0cf0c74bab2b17a7.png)
这个渣翻译…P(w|z,T)咋就瓦特了orz
应用部分
The Topics of Science
主题与词
第一张图可以看出,在300次迭代左右的效果比较好。
第二张图那个强对角线矩阵可看出不同主题对应的出现频率最高的前五个词。以及在对角线之外的“马赛克”可以看出主题与主题之间的相互关系,有些主题之间联系比较紧密,另一些则比较干净。
热门话题和热门话题
这里的冷门话题不是说一直很少有人关注的,而是曾经很热而最近变冷的。
标记摘要
这里可以通过颜色反映出不同词的被使用频率,而右上角的上标则表示了这个单词所属的主题。你可以根据这一段文字看出其比较关键的内容以及根据角标找到其属于哪一类内容。
Conclusion
【嘛…先摘抄成这样吧,等有空补补数学八卦再回来证一些】