新浪微博用户兴趣建模系统架构

最新推荐文章于 2020-06-22 19:45:02 发布

张俊林博客

最新推荐文章于 2020-06-22 19:45:02 发布

阅读量1.6w

点赞数 2

分类专栏：自然语言处理社交挖掘文章标签：兴趣模型新浪微博

本文链接：https://blog.csdn.net/malefactor/article/details/51448202

版权

本文介绍了2011年左右新浪微博的用户兴趣建模系统，该系统由实时和离线挖掘两部分组成，用于构建用户的兴趣标签、兴趣词和兴趣分类。实时系统采用分布式处理，离线挖掘系统基于Hadoop进行优化。通过对微博内容的语义处理和焦点词抽取，系统能有效识别用户的个性化兴趣。

摘要由CSDN通过智能技术生成

author: 张俊林

/*作者注：这是2011年左右新浪微博个人兴趣模型的技术架构，所以你从中是看不到目前很多流行的NoSQL平台的，因为它们那时候还没出生呢，现在应该有了很大变化了，不过以新浪微博对技术的重视程度，说不定还是这套在运转也说不定@^@。*/

在微博环境下，构建微博用户的个人兴趣模型是非常重要的一项工作。首先，从可行性方面而言，微博是一个用户登录后才能正常使用的应用，而且用户登录后会有阅读/发布/关注等多种用户行为数据，所以微博环境是一个构建用户兴趣模型的非常理想的环境，因为围绕某个特定用户可以收集到诸多的个性化信息。另外，从用户兴趣建模的意义来说，如果能够根据用户的各项数据构建精准的个人兴趣模型，那么对于各种个性化的应用比如推荐、精准定位广告系统等都是一种非常有用的精准定位数据源，可以在此基础上构建各种个性化应用。

事实上，新浪微博在2011年前已经构建了一套比较完善的用户兴趣建模系统，目前这套系统挖掘出的个人兴趣模型数据已经应用在10多项各种应用中。对于每个微博用户，通过对用户发布内容以及社交关系挖掘，可以得出很多有益的数据，具体而言，每个微博用户的兴趣描述包含以下三个方面：用户兴趣标签、用户兴趣词和用户兴趣分类。

用户兴趣标签是通过微博用户的社交关系推导出的用户可能感兴趣的语义标签；用户兴趣词是通过对用户发布微博或转发微博等内容属性来挖掘用户潜在兴趣；用户兴趣分类则是在定义好的三级分类体系中，将用户的各种数据映射到分类体系结构中，比如某个用户可能对“体育/娱乐明星”这几个类别有明显兴趣点。以上三种个性化数据，用户兴趣标签和用户兴趣词是细粒度的用户兴趣描述，因为可以具体对应到实体标签一级，而用户兴趣分类则是一种粗粒度的用户兴趣模型。本文主要从体系结构角度来简介用户兴趣词以及用户兴趣分类这两类用户兴趣的挖掘系统架构。