论文阅读之FindingScientificTopics

最新推荐文章于 2020-05-22 07:43:54 发布

Unauthorized_

最新推荐文章于 2020-05-22 07:43:54 发布

阅读量916

点赞数

分类专栏： PaperReading

本文链接：https://blog.csdn.net/Unauthorized_/article/details/105471143

版权

PaperReading 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

Finding scientific topics

Author:Thomas L. Grifﬁths
翻译：（小技巧：从百度搜了https://www.pnas.org/content/101/suppl_1/5228.full）之后点击阅读全文后复制到googleChrome浏览器上然后点击翻译233

摘要
生成

Abstract 摘要

在这里插入图片描述
总结了一下这篇文章的目的：用概率上的事儿来分析一个词最有可能在哪一个大类的文章中出现（比如“n维空间”、“秩”就很可能在高代模块里出现，这样子）。那个关键的概率用的是Dirichlet相关。应用：评估不同学科之间的相关度；从文章里的单词来看你的文章最有可能是哪个/哪些主题；评估热门主题

Document,Topics, and Statistical Inference

在这里插入图片描述定义了各种概率，P(wi)=∑P(wi|zi=j)P(zi=j)是说，某个字符wi出现在一个Document中的概率，可以看成两步，第一步找到它所在的主题1~T中的某个j P(zi=j)，第二步是找到该主题下的单词出现概率P(wi|zi=j)。要想考察该Document中wi单词出现概率，就要遍历所有的主题求出p(wi)

Using Gibbs Sampling to Discover Topics

在这里插入图片描述
大概就是假定了几个数学模型，然后开始算出后验分布…这里我是真的不行了orz有时间再来更新【下次一定.jpg】

图形示例

到了我最喜欢的~~xjb扯~~实验环节了
在这里插入图片描述
第一张图：黑白分明的那个代表主题，b代表文档，而一个个像素就是一个个单词，c的是看不同方法的收敛速度，显然Gibbs收敛速度较好。
第二张图：迭代次数的不同，可看出逐渐趋于稳定。大概在迭代次数>200的时候就已经比较能看出结果了。

Model Selection

这个渣翻译…P(w|z,T)咋就瓦特了orz

应用部分

The Topics of Science

主题与词

在这里插入图片描述
第一张图可以看出，在300次迭代左右的效果比较好。
第二张图那个强对角线矩阵可看出不同主题对应的出现频率最高的前五个词。以及在对角线之外的“马赛克”可以看出主题与主题之间的相互关系，有些主题之间联系比较紧密，另一些则比较干净。

标记摘要

在这里插入图片描述
这里可以通过颜色反映出不同词的被使用频率，而右上角的上标则表示了这个单词所属的主题。你可以根据这一段文字看出其比较关键的内容以及根据角标找到其属于哪一类内容。

Conclusion

在这里插入图片描述
【嘛…先摘抄成这样吧，等有空补补数学八卦再回来证一些】

Unauthorized_

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
论文阅读之FindingScientificTopics

Finding scientific topicsAuthor:Thomas L. Grifﬁths翻译：（小技巧：从百度搜了https://www.pnas.org/content/101/suppl_1/5228.full）之后点击阅读全文后复制到googleChrome浏览器上然后点击翻译233摘要生成Abstract 摘要总结了一下这篇文章的目的：用概率上的事儿来分析...
复制链接

扫一扫