【论文阅读】Social-network analysis using topic models

Cha Y, Cho J. Social-network analysis using topic models[C]//Proceedings of the 35th international ACM SIGIR conference on Research and development in information retrieval. ACM, 2012: 565-574.
在这里插入图片描述

  • 这是2012年发表在SIGIR的一篇工作。它将社交网络融于主题模型中,与我上一页PPT提及的原因一致,都是为了挖掘用户的关注者们的一个兴趣主题分布。与前面做法不同的是,原始LDA对文档进行主题挖掘是利用文档的词袋模型进行训练的,但是在训练之前一般都会进行一个去除停用词或者高频词的操作,因为这些词如果不去除的话,则很有可能会属于多个主题,从而导致得到的主题分布有噪音。
  • 所以如果我们把用户的所有关注者都变成一篇文档表示,我们是否要去除出现次数很高的被关注者呢?答案是否定的!被关注者在所有的关注者的列表中出现次数很高,这恰恰代表这个用户被很多人喜欢,这个用户是符合大家兴趣的,这个用户是有一定影响力的啊!但是如果不删除这种出现高频次数的被关注者的话,最后得到的关于关注者的主题分布确实会产生一定的噪音,这个时候这种被关注者会被划分到很多主题中去,这并不是我们想要得到的结果。
  • 这个问题是本篇论文作者所想要解决的问题,针对这个问题,作者也给出了自己的答案。即把这一批高频的被关注者‘挑出来’,另外形成一个文档表示,然后剩下的也形成一个文档表示,对这两部分文档分别进行LDA训练。这也就是PPT里显示的Two-step Labeling的方法。至于Threshold Noise Filtering是指针对高频关注者最后得到的一个兴趣主题下的用户分布指定一个阈值,在阈值以下的用户则会被剔除掉。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值