【论文阅读】Social-network analysis using topic models

最新推荐文章于 2021-09-03 23:39:59 发布

_ dingding_

最新推荐文章于 2021-09-03 23:39:59 发布

阅读量500

点赞数

分类专栏： # 推荐系统论文阅读文章标签：主题模型推荐系统社交网络

本文链接：https://blog.csdn.net/qiqi123i/article/details/101288584

版权

推荐系统论文阅读专栏收录该内容

19 篇文章 8 订阅

订阅专栏

Cha Y, Cho J. Social-network analysis using topic models[C]//Proceedings of the 35th international ACM SIGIR conference on Research and development in information retrieval. ACM, 2012: 565-574.
在这里插入图片描述

这是2012年发表在SIGIR的一篇工作。它将社交网络融于主题模型中，与我上一页PPT提及的原因一致，都是为了挖掘用户的关注者们的一个兴趣主题分布。与前面做法不同的是，原始LDA对文档进行主题挖掘是利用文档的词袋模型进行训练的，但是在训练之前一般都会进行一个去除停用词或者高频词的操作，因为这些词如果不去除的话，则很有可能会属于多个主题，从而导致得到的主题分布有噪音。
所以如果我们把用户的所有关注者都变成一篇文档表示，我们是否要去除出现次数很高的被关注者呢？答案是否定的！被关注者在所有的关注者的列表中出现次数很高，这恰恰代表这个用户被很多人喜欢，这个用户是符合大家兴趣的，这个用户是有一定影响力的啊！但是如果不删除这种出现高频次数的被关注者的话，最后得到的关于关注者的主题分布确实会产生一定的噪音，这个时候这种被关注者会被划分到很多主题中去，这并不是我们想要得到的结果。
这个问题是本篇论文作者所想要解决的问题，针对这个问题，作者也给出了自己的答案。即把这一批高频的被关注者‘挑出来’，另外形成一个文档表示，然后剩下的也形成一个文档表示，对这两部分文档分别进行LDA训练。这也就是PPT里显示的Two-step Labeling的方法。至于Threshold Noise Filtering是指针对高频关注者最后得到的一个兴趣主题下的用户分布指定一个阈值，在阈值以下的用户则会被剔除掉。

_ dingding_

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
【论文阅读】Social-network analysis using topic models

Cha Y, Cho J. Social-network analysis using topic models[C]//Proceedings of the 35th international ACM SIGIR conference on Research and development in information retrieval. ACM, 2012: 565-574.这是20...
复制链接

扫一扫

专栏目录