【推荐架构day2】微博怎么给你推荐信息的:基本原理

本文主要介绍微博背后的算法架构。首先,我们先回三个问题:

1.为什么会产生推荐系统?
2.本文是如何将微博推荐的目标和需要解决的问题,抽样为一系列的数学问题的?
3.如何将微博内容转化为结构化向量,包括词语切分、词语信息标注、内容核心词/实体词提取、语义依存分析等?

 

在介绍微博推荐算法之前,我们先聊一聊推荐系统和推荐算法。有这样一些问题:推荐系统适用哪些场景?用来解决什么问题、具有怎样的价值?效果如何衡量?

推荐系统诞生很早,但真正被大家所重视,缘起于以”facebook”为代表的社会化网络的兴起和以“淘宝“为代表的电商的繁荣,”选择“的时代已经来临,信息和物品的极大丰富,让用户如浩瀚宇宙中的小点,无所适从。推荐系统迎来爆发的机会,变得离用户更近:

  • 快速更新的信息,使用户需要借助群体的智慧,了解当前热点。
  • 信息极度膨胀,带来了高昂的个性化信息获取成本,过滤获取有用信息的效率低下。
  • 很多情况下,用户的个性化需求很难明确表达,比如“今天晚上需要在附近找一个性价比高、又符合我口味的餐馆“。

 

推荐系统的适用场景还有很多,不再一一列举;其主要解决的问题是为用户找到合适的item(连接和排序),并找到一个合理的理由来解释推荐结果。而问题的解决,就是系统的价值,即建立关联、促进流动和传播、加速优胜劣汰。
 

推荐算法是实现推荐系统目标的方法和手段。算法与产品相结合,搭载在高效稳定的架构上,才能发挥它的最大功效。

接下来我们说一下微博推荐,微博本身的产品设计,使得即使没有推荐系统,仍然会形成一个大的用户关系网络,实现信息快速传播;而衡量一个事物的价值,一个简单的方法是对比看看保留它和去掉它时的差别。微博需要健康的用户关系网络,保障用户feed流的质量,且需要优质信息快速流动,通过传播淘汰低质信息。微博推荐的作用在于加速这一过程,并在特定的情况下控制信息的流向,所以微博推荐的角色是一个加速器和控制器。

最后回到微博推荐算法中来,上面扯了那么多,只是为了让大家能对微博推荐算法有更好的理解。我们的工作,是将微博推荐的目标和需要解决的问题,抽样为一系列的数学问题,然后运用多种数据工具进行求解。

接下来首先用一个图梳理下我们用到的方法和技术,然后再逐一介绍。

基础及关联算法

 

这一层算法的主要作用是为微博推荐挖掘必要的基础资源、解决推荐时的通用技术问题、完成必要的数据分析为推荐业务提供指导。

这一部分中常用的算法和技术如下:


分词技术与核心词提取

是微博内容推荐的基础,用于将微博内容转化为结构化向量,包括词语切分、词语信息标注、内容核心词/实体词提取、语义依存分析等。


分类与anti-spam

用于微博内容推荐候选的分析,包含微博内容分类和营销广告/色情类微博识别;

内容分类采用决策树分类模型实现,共3级分类体系,148个类别;营销广告/色情类微博的识别,采用贝叶斯与最大熵的混合模型。


聚类技术

主要用于热点话题挖掘,以及为内容相关推荐提供关联资源。属于微博自主研发的聚类技术WVT算法(word vector topic)&#x

  • 7
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值