#One paper per week# Inferring Correspondences from Multiple Sources for Microblog User Tags

论文题目:Inferring Correspondences from Multiple Sources for Microblog User Tags
论文地址:http://link.springer.com/chapter/10.1007/978-3-662-45558-6_1 

论文大体内容:
作者提出了一个TCM(Tag Correspondence Model)的模型,用于有效地推荐标签给用户。
“该论文面向社会媒体的用户标签推荐任务,提出了一种综合利用用户的多源异质信息进行标签推荐的方法,与传统利用单源信息进行标签推荐相比,能够有效提升标签推荐性能。”[1]

1、目前来说,有些推荐方法是根据用户标标签行为,基于合作的方法(collaboration-based approach),有些是基于内容的方法(content-based approach)。然后作者把多种source(包括用户个人简介,用户信息,关联用户的信息等)结合在一起,推出TCM模型。
2、TCM是一个概率生成模型(probabilistic generative model),里面各个参数比较复杂,有兴趣可阅读原论文。然后作者结合文档主题生成模型(LDA,Latent Dirichlet Allocation)[2],把里面的公式进行优化。
3、作者选择的source有:user message(UM),user descriptions(UD),neighbor tags(NT),neighbor descriptions(ND)。作者在新浪微博上随机选择了200万用户从2012年1月到同年12月的微博,经筛选后剩下30多万用户。处理出UM, UD, NT, ND后进行分析,发现NT的重要性最大(感觉跟“物以类聚”有关)。
4、最后,作者将多个不同的模型进行准确率(precision),召回率(recall)以及F1做了一个比较,发现将上面4个source联合后的模型表现得最好,F1是0.184。

这篇文章感觉很难懂,但从中了解到了LDA,也是不错的收获。

参考资料:
[1]、http://www.cs.tsinghua.edu.cn/publish/cs/4840/2014/20141205105155049573081/20141205105155049573081_.html 
[2]、LDA介绍,http://blog.sina.com.cn/s/blog_9d7bca9f01015580.html 

以上均为个人见解,因本人水平有限,如发现有所错漏,敬请指出,谢谢!
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值