论文题目:Inferring Correspondences from Multiple Sources for Microblog User Tags
论文地址:http://link.springer.com/chapter/10.1007/978-3-662-45558-6_1
论文大体内容:
作者提出了一个TCM(Tag Correspondence Model)的模型,用于有效地推荐标签给用户。
“该论文面向社会媒体的用户标签推荐任务,提出了一种综合利用用户的多源异质信息进行标签推荐的方法,与传统利用单源信息进行标签推荐相比,能够有效提升标签推荐性能。”[1]
1、目前来说,有些推荐方法是根据用户标标签行为,基于合作的方法(collaboration-based approach),有些是基于内容的方法(content-based approach)。然后作者把多种source(包括用户个人简介,用户信息,关联用户的信息等)结合在一起,推出TCM模型。
2、TCM是一个概率生成模型(probabilistic generative model),里面各个参数比较复杂,有兴趣可阅读原论文。然后作者结合文档主题生成模型(LDA,Latent Dirichlet Allocation)[2],把里面的公式进行优化。
3、作者选择的source有:user message(UM),user descriptions(UD),neighbor tags(NT),neighbor descriptions(ND)。作者在新浪微博上随机选择了200万用户从2012年1月到同年12月的微博,经筛选后剩下30多万用户。处理出UM, UD, NT, ND后进行分析,发现NT的重要性最大(感觉跟“物以类聚”有关)。
4、最后,作者将多个不同的模型进行准确率(precision),召回率(recall)以及F1做了一个比较,发现将上面4个source联合后的模型表现得最好,F1是0.184。
这篇文章感觉很难懂,但从中了解到了LDA,也是不错的收获。
参考资料:
[1]、http://www.cs.tsinghua.edu.cn/publish/cs/4840/2014/20141205105155049573081/20141205105155049573081_.html
[2]、LDA介绍,http://blog.sina.com.cn/s/blog_9d7bca9f01015580.html
以上均为个人见解,因本人水平有限,如发现有所错漏,敬请指出,谢谢!
论文地址:http://link.springer.com/chapter/10.1007/978-3-662-45558-6_1
论文大体内容:
作者提出了一个TCM(Tag Correspondence Model)的模型,用于有效地推荐标签给用户。
“该论文面向社会媒体的用户标签推荐任务,提出了一种综合利用用户的多源异质信息进行标签推荐的方法,与传统利用单源信息进行标签推荐相比,能够有效提升标签推荐性能。”[1]
1、目前来说,有些推荐方法是根据用户标标签行为,基于合作的方法(collaboration-based approach),有些是基于内容的方法(content-based approach)。然后作者把多种source(包括用户个人简介,用户信息,关联用户的信息等)结合在一起,推出TCM模型。
2、TCM是一个概率生成模型(probabilistic generative model),里面各个参数比较复杂,有兴趣可阅读原论文。然后作者结合文档主题生成模型(LDA,Latent Dirichlet Allocation)[2],把里面的公式进行优化。
3、作者选择的source有:user message(UM),user descriptions(UD),neighbor tags(NT),neighbor descriptions(ND)。作者在新浪微博上随机选择了200万用户从2012年1月到同年12月的微博,经筛选后剩下30多万用户。处理出UM, UD, NT, ND后进行分析,发现NT的重要性最大(感觉跟“物以类聚”有关)。
4、最后,作者将多个不同的模型进行准确率(precision),召回率(recall)以及F1做了一个比较,发现将上面4个source联合后的模型表现得最好,F1是0.184。
这篇文章感觉很难懂,但从中了解到了LDA,也是不错的收获。
参考资料:
[1]、http://www.cs.tsinghua.edu.cn/publish/cs/4840/2014/20141205105155049573081/20141205105155049573081_.html
[2]、LDA介绍,http://blog.sina.com.cn/s/blog_9d7bca9f01015580.html
以上均为个人见解,因本人水平有限,如发现有所错漏,敬请指出,谢谢!