#One paper per week# Inferring Correspondences from Multiple Sources for Microblog User Tags

最新推荐文章于 2023-02-21 14:21:34 发布

John159151

最新推荐文章于 2023-02-21 14:21:34 发布

阅读量627

点赞数

本文链接：https://blog.csdn.net/John159151/article/details/45459731

版权

paper reading 同时被 2 个专栏收录

99 篇文章 4 订阅

订阅专栏

One paper per week

4 篇文章 0 订阅

订阅专栏

论文题目：Inferring Correspondences from Multiple Sources for Microblog User Tags
论文地址：http://link.springer.com/chapter/10.1007/978-3-662-45558-6_1

论文大体内容：
作者提出了一个TCM(Tag Correspondence Model)的模型，用于有效地推荐标签给用户。
“该论文面向社会媒体的用户标签推荐任务，提出了一种综合利用用户的多源异质信息进行标签推荐的方法，与传统利用单源信息进行标签推荐相比，能够有效提升标签推荐性能。”[1]

1、目前来说，有些推荐方法是根据用户标标签行为，基于合作的方法(collaboration-based approach)，有些是基于内容的方法(content-based approach)。然后作者把多种source(包括用户个人简介，用户信息，关联用户的信息等)结合在一起，推出TCM模型。
2、TCM是一个概率生成模型(probabilistic generative model)，里面各个参数比较复杂，有兴趣可阅读原论文。然后作者结合文档主题生成模型(LDA，Latent Dirichlet Allocation)[2]，把里面的公式进行优化。
3、作者选择的source有：user message(UM)，user descriptions(UD)，neighbor tags(NT)，neighbor descriptions(ND)。作者在新浪微博上随机选择了200万用户从2012年1月到同年12月的微博，经筛选后剩下30多万用户。处理出UM, UD, NT, ND后进行分析，发现NT的重要性最大(感觉跟“物以类聚”有关)。
4、最后，作者将多个不同的模型进行准确率(precision)，召回率(recall)以及F1做了一个比较，发现将上面4个source联合后的模型表现得最好，F1是0.184。

这篇文章感觉很难懂，但从中了解到了LDA，也是不错的收获。

参考资料：
[1]、http://www.cs.tsinghua.edu.cn/publish/cs/4840/2014/20141205105155049573081/20141205105155049573081_.html
[2]、LDA介绍，http://blog.sina.com.cn/s/blog_9d7bca9f01015580.html

以上均为个人见解，因本人水平有限，如发现有所错漏，敬请指出，谢谢！