推荐系统 --- 工程

系统架构

  • 实时
  • 准实时
  • 离线

数据驱动和实验平台

  • 数据驱动
    • 数据:要采集数据,全方位,数据像是石油一样,没有它就谈不上驱动;
    • 驱动:要让大家看数据,光采集了没有用,还需要让所有人盯着数据看。
  • 实验平台
    • AB 实验平台:数据驱动的重点是做对比实验,通过 对比,让模型、策略、设计等不同创意和智慧结晶新陈代谢,不断迭代更新。
    • 互联网实验,需要三个要素:
      • 流量:流量就是用户的访问,也是实验的样本来源。
      • 参数:参数就是各种组合,也是用户访问后,从触发互联网产品这个大函 数,到最后返回结果给用户,中间所走的路径。
      • 结果:实验的全过程都有日志记录,通过这些日志才能分析出实验结果,是否成功,是否显著。
    • 在设计一个实验之初,实验设计人员总是需要考虑下面这些问题
      • 实验的起止时间。这涉及到样本的数量,关系到统计效果的显著性,也涉 及能否取出时间因素的影响。
      • 实验的流量大小。这也涉及了样本的数量,关系到统计效果的显著性。
      • 流量的分配方式。每一个流量在为其选择参数分支时,希望是不带任何偏 见的,也就是均匀采样,通常按照 UUID 或者 Cookie 随机取样。
      • 流量的分配条件。还有一些实验需要针对某个流量的子集,例如只对重庆 地区的用户测试,推荐时要不要把火锅做额外的提升加权。
      • 流量如何无偏置。这是流量分配最大的问题,也是最难的问题。
    • 应用案例 — 重叠实验架构
      • 所谓重叠实验,就是一个流量从进入产品服务,到最后返回结果呈现给用户,中 间设置了好几个检查站,每个检查站都在测试某些东西,这样同时做多组实验就 是重叠实验。
      • 前面说了,重叠实验最大的问题是怎么避免流量偏置。为此,需要引入三个概念。
        • 域:是流量的一个大的划分,最上层的流量进来时首先是划分域。
        • 层:是系统参数的一个子集,一层实验是对一个参数子集的测试。
        • 桶:实验组和对照组就在这些桶中。
      • 关于分层实验,有几点需要注意:
        • 每一层分桶时,不是只对 Cookie 或者 UUID 散列取模,而是加上了层 ID, 是为了让层和层之间分桶相互独立;
        • Cookie 或者 UUID 散列成整数时,考虑用均匀的散列算法,如 MD5。
        • 取模要一致,为了用户体验,虽然是分桶实验,但是同一个用户在同一个 位置每次感受不一致,会有损用户体验。
    • 统计效果

实践原理

  • 注意力
    • 概述
      • 用户为一个广告倾注了注意力,那么就有可能去点击广告,如果这个注意力非常强烈,还会继续消费广告中的商品,如果注意力足够持久,那么就会参与到整个链条上的各个经济活动。
    • 不同时代的注意力
      • 首先,在门户时代,信息稀缺,注意力丰富,用户主动找信息。
      • 其次,在搜索时代,信息已经丰富,但搜索的工具属性和使用场景单一,导致它并不会侵蚀用户的注意力,所以依然是用户主动找信息。
      • 最后,在移动互联网普及之后,信息已经泛滥到很大程度,智能手机变成身体的一个器官,丰富的注意力被信息源以推荐的方式逐渐侵蚀,注意力从丰富变成稀缺。
    • attention=A×Cattention=A×C
      • 原理
        • C 是内容复杂程度,因为不好量化,可以理解为内容被消耗光所需的时间
          • 论文网站和鸡汤文网站,要读完两者,难度显然不同,表现为消耗时间不同
          • 卖奢侈品电商网站和卖地摊货的电商网站,要买光所有商品,花费的钱需要时间去累积,也表现在消耗时间不同
        • A 是内容消耗的加速度,为什么是加速度,而不是速度呢?因为这里衡量的注意力并不只是内容消费者的注意力,还有内容创作者的注意力,是两者合并后的结果。
          • 如果用户的注意力和内容创作者倾注的注意力相同,就表现为每天消耗的内容数量一样,加速度为 0,整个平台上没有多余的注意力剩下,没有多余的注意力剩下,就无法销售注意力。
        • 内容消耗的加速度,还与参加消耗的用户数量有关,用户数量越多,每天消耗越多,用户数量指数增加,则消耗的加速度就不为 0,平台方就有了多余的注意力。
      • 提升平台剩余注意力的策略,及负面影响
        • 内容创作适当少倾注注意力,这样的结果是,用户消耗会快,但难度也会减少,总注意力会受到制衡;
        • 提升内容难度,这意味着创作者也要倾注更多注意力,有可能用户方消耗不了,加速度变成负数;
        • 提高单用户消耗加速度,这就是推荐系统的作用,给用户推荐他更愿意消耗的内容;
        • 提高用户数,或者说提高活跃用户数。
  • 推荐系统的成本
    • 团队成本;
    • 硬件成本;
      • 要存储更多的数据;
      • 要更安全保存数据;
      • 要更快响应用户,才能留住用户;
      • 要更好的开发环境,才能提高工程师开发效率,要知道工程师的时间成本最高。
    • 机会成本。
      • 所谓机会成本就是:可能推荐系统并没有帮助产品创造什么价值,反而把很多资源投入在这上面,白白浪费了市场窗口期。

具体案例一

  • 电子商务 — 亚马逊
    • 几个组成部分
      • 推荐结果的标题、缩略图以及其他内容属性
      • 推荐结果的平均分
      • 推荐理由
    • 推荐方式
      • 基于物品的推荐算法(item-based method),该算法给用户推荐那些和他们之前喜欢的物品相似的物品。
      • 另外一种个性化推荐列表,就是按照用户在Facebook的好友关系,给用户推荐他们的好友在亚马逊上喜欢的物品。
      • 另一个重要的推荐应用就是相关推荐列表。当你在亚马逊购买一个商品时,它会在商品信息下面展示相关的商品。亚马逊有两种相关商品列表,
        • 一种是包含购买了这个商品的用户也经常购买的其他商品
        • 另一种是包含浏览过这个商品的用户经常购买的其他商品
    • 效果
      • 亚马逊有20%~30%的销售来自于推荐系统
  • 电影和视频网站 — Netflix
    • Netflix
      • 几个组成部分
        • 电影的标题和海报
        • 用户反馈模块——包括Play(播放)、评分和Not Interested(不感兴趣)3种
        • 推荐理由——因为用户曾经喜欢过别的电影
      • 推荐方式
        • 基于物品的推荐算法,即给用户推荐和他们曾经喜欢的电影相似的电影
      • 效果
        • Netflix在宣传资料中宣称,有60%②的用户是通过其推荐系统找到自己感兴趣的电影和视频的
    • YouTube
      • 推荐方式
        • 基于物品的推荐算法。
      • 效果
        • YouTube曾经做个一个实验,比较了个性化推荐的点击率和热门视频列表的点击率,实验结果表明个性化推荐的点击率是 热门视频点击率的两倍。
  • 个性化音乐网络电台
    • 特点
      • 物品空间大 物品数很多,物品空间很大,这主要是相对于书和电影而言。
      • 消费每首歌的代价很小 对于在线音乐来说,音乐都是免费的,不需要付费。
      • 物品种类丰富 音乐种类丰富,有很多的流派。
      • 听一首歌耗时很少 听一首音乐的时间成本很低,不太浪费用户的时间,而且用户大都 把音乐作为背景声音,同时进行其他工作。
      • 物品重用率很高 每首歌用户会听很多遍,这和其他物品不同,比如用户不会反复看一 个电影,不会反复买一本书。
      • 用户充满激情 用户很有激情,一个用户会听很多首歌。
      • 上下文相关 用户的口味很受当时上下文的影响,这里的上下文主要包括用户当时的心情(比如沮丧的时候喜欢听励志的歌曲)和所处情境(比如睡觉前喜欢听轻音乐)。
      • 次序很重要 用户听音乐一般是按照一定的次序一首一首地听。
      • 很多播放列表资源 很多用户都会创建很多个人播放列表。
      • 不需要用户全神贯注 音乐不需要用户全神贯注地听,很多用户将音乐作为背景声音。
      • 高度社会化 用户听音乐的行为具有很强的社会化特性,比如我们会和好友分享自己喜 欢的音乐。
    • Pandora
      • Pandora的算法主要基于内容,其音乐家和研究人员亲自听了上万首来自不同歌手的歌,然后对歌曲的不同特性(比如旋律、节奏、编曲和歌词等)进行标注,这些标注被称为音乐的基因。
      • 然后,Pandora会根据专家标注的基因计算歌曲的相似度,并给用户推荐和他之前喜欢的音乐在基因上相似的其他音乐。
    • Last.fm
      • Last.fm记录了所有用户的听歌记录以及用户对歌曲的反馈,在这一基础上计算出不同用户在歌曲上的喜好相似度,从而给用户推荐和他有相似听歌爱好的其他用户喜欢的歌曲。
      • 同时,Last.fm也建立了一个社交网络,让用户能够和其他用户建立联系,同时也能让用户给好友推荐自己喜欢的歌曲。
  • 社交网络
    • 社交网络中的个性化推荐技术主要应用在3个方面
      • 利用用户的社交网络信息对用户进行个性化的物品推荐;
      • 信息流的会话推荐;
      • 给用户推荐好友。
    • Facebook
      • 最宝贵的数据有两个
        • 一个是用户之间的社交网络关系
        • 另一个是用户的偏好信息
      • 应用
        • Facebook推出了一个推荐API,称为Instant Personalization。该工具根据用户好友喜欢的信息,给用户推荐他们的好友最喜欢的物品。
        • Facebook开发了EdgeRank算法对这些会话排序,使用户能够尽量看到熟悉的好友的最新会话。
        • 社交网站还通过个性化推荐服务给用户推荐好友。

具体案例二

  • 个性化阅读
    • Google Reader
      • Google Reader是一款流行的社会化阅读工具。它允许用户关注自己感兴趣的人,然后看到所关注用户分享的文章。
    • Zite
      • 个性化阅读工具Zite则是收集用户对文章的偏好信息。
      • 在每篇文章右侧,Zite都允许用户给出喜欢或不喜欢的反馈,然后通过分析用户的反馈数据不停地更新用户的个性化文章列表。Zite推出后获得了巨大的成功,后被CNN收购。
    • Digg
      • Digg首先根据用户的Digg历史计算用户之间的兴趣相似度,然后给用户推荐和他兴趣相似的用户喜欢的文章。根据Digg自己的统计,在使用推荐系统后,用户的digg行为明显更加活跃,digg总数提高了40%,用户的好友数平均增加了24%,评论数增加了11%。
  • 基于位置的服务
    • 大众点评
  • 个性化邮件
    • 概述
      • 垃圾邮件可以通过垃圾邮 件过滤器去除,这是一个专门的研究领域,这里就不讨论了。
      • 在正常的邮件中,如果能够找到 对用户重要的邮件让用户优先浏览,无疑会大大提高用户的工作效率。
    • Tapestry
      • 目前在文献中能够查到的第一个推荐系统Tapestry①就是一个个性化邮件推荐系统,它 通过分析用户阅读邮件的历史行为和习惯对新邮件进行重新排序,从而提高用户的工作效率。
    • 谷歌
      • 谷歌的研究人员在这个问题上也进行了深入研究,于2010年推出了优先级收件箱功能。
      • 谷歌的研究表明,该产品可以帮助用户节约6%的时间② 。在如今这个时间就是金钱的年代,6%的节约无疑是一大进步。
  • 个性化广告
    • 目前的个性化广告投放技术主要分为3种:
      • 上下文广告 通过分析用户正在浏览的网页内容,投放和网页内容相关的广告。代表系统是谷歌的Adsense。
      • 搜索广告 通过分析用户在当前会话中的搜索记录,判断用户的搜索目的,投放和用户目的相关的广告。
      • 个性化展示广告 我们经常在很多网站看到大量展示广告(就是那些大的横幅图片),它们是根据用户的兴趣,对不同用户投放不同的展示广告。雅虎是这方面研究的代表。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值