推荐系统 --- 工程

最新推荐文章于 2024-08-20 21:17:50 发布

micklongen

最新推荐文章于 2024-08-20 21:17:50 发布

阅读量446

点赞数

分类专栏：人工智能垂直领域文章标签：系统架构人工智能运维

本文链接：https://blog.csdn.net/micklongen/article/details/122310687

版权

人工智能垂直领域专栏收录该内容

15 篇文章 0 订阅

订阅专栏

系统架构

实时
准实时
离线

数据驱动和实验平台

数据驱动
- 数据：要采集数据，全方位，数据像是石油一样，没有它就谈不上驱动；
- 驱动：要让大家看数据，光采集了没有用，还需要让所有人盯着数据看。
实验平台
- AB 实验平台：数据驱动的重点是做对比实验，通过对比，让模型、策略、设计等不同创意和智慧结晶新陈代谢，不断迭代更新。
- 互联网实验，需要三个要素：
  - 流量：流量就是用户的访问，也是实验的样本来源。
  - 参数：参数就是各种组合，也是用户访问后，从触发互联网产品这个大函数，到最后返回结果给用户，中间所走的路径。
  - 结果：实验的全过程都有日志记录，通过这些日志才能分析出实验结果，是否成功，是否显著。
- 在设计一个实验之初，实验设计人员总是需要考虑下面这些问题
  - 实验的起止时间。这涉及到样本的数量，关系到统计效果的显著性，也涉及能否取出时间因素的影响。
  - 实验的流量大小。这也涉及了样本的数量，关系到统计效果的显著性。
  - 流量的分配方式。每一个流量在为其选择参数分支时，希望是不带任何偏见的，也就是均匀采样，通常按照 UUID 或者 Cookie 随机取样。
  - 流量的分配条件。还有一些实验需要针对某个流量的子集，例如只对重庆地区的用户测试，推荐时要不要把火锅做额外的提升加权。
  - 流量如何无偏置。这是流量分配最大的问题，也是最难的问题。
- 应用案例 — 重叠实验架构
  - 所谓重叠实验，就是一个流量从进入产品服务，到最后返回结果呈现给用户，中间设置了好几个检查站，每个检查站都在测试某些东西，这样同时做多组实验就是重叠实验。
  - 前面说了，重叠实验最大的问题是怎么避免流量偏置。为此，需要引入三个概念。
    - 域：是流量的一个大的划分，最上层的流量进来时首先是划分域。
    - 层：是系统参数的一个子集，一层实验是对一个参数子集的测试。
    - 桶：实验组和对照组就在这些桶中。
  - 关于分层实验，有几点需要注意：
    - 每一层分桶时，不是只对 Cookie 或者 UUID 散列取模，而是加上了层 ID，是为了让层和层之间分桶相互独立；
    - Cookie 或者 UUID 散列成整数时，考虑用均匀的散列算法，如 MD5。
    - 取模要一致，为了用户体验，虽然是分桶实验，但是同一个用户在同一个位置每次感受不一致，会有损用户体验。
- 统计效果

实践原理

注意力
- 概述
  - 用户为一个广告倾注了注意力，那么就有可能去点击广告，如果这个注意力非常强烈，还会继续消费广告中的商品，如果注意力足够持久，那么就会参与到整个链条上的各个经济活动。
- 不同时代的注意力
  - 首先，在门户时代，信息稀缺，注意力丰富，用户主动找信息。
  - 其次，在搜索时代，信息已经丰富，但搜索的工具属性和使用场景单一，导致它并不会侵蚀用户的注意力，所以依然是用户主动找信息。
  - 最后，在移动互联网普及之后，信息已经泛滥到很大程度，智能手机变成身体的一个器官，丰富的注意力被信息源以推荐的方式逐渐侵蚀，注意力从丰富变成稀缺。
- attention=A×Cattention=A×C
  - 原理
    - C 是内容复杂程度，因为不好量化，可以理解为内容被消耗光所需的时间
      - 论文网站和鸡汤文网站，要读完两者，难度显然不同，表现为消耗时间不同
      - 卖奢侈品电商网站和卖地摊货的电商网站，要买光所有商品，花费的钱需要时间去累积，也表现在消耗时间不同
    - A 是内容消耗的加速度，为什么是加速度，而不是速度呢？因为这里衡量的注意力并不只是内容消费者的注意力，还有内容创作者的注意力，是两者合并后的结果。
      - 如果用户的注意力和内容创作者倾注的注意力相同，就表现为每天消耗的内容数量一样，加速度为 0，整个平台上没有多余的注意力剩下，没有多余的注意力剩下，就无法销售注意力。
    - 内容消耗的加速度，还与参加消耗的用户数量有关，用户数量越多，每天消耗越多，用户数量指数增加，则消耗的加速度就不为 0，平台方就有了多余的注意力。
  - 提升平台剩余注意力的策略，及负面影响
    - 内容创作适当少倾注注意力，这样的结果是，用户消耗会快，但难度也会减少，总注意力会受到制衡；
    - 提升内容难度，这意味着创作者也要倾注更多注意力，有可能用户方消耗不了，加速度变成负数；
    - 提高单用户消耗加速度，这就是推荐系统的作用，给用户推荐他更愿意消耗的内容；
    - 提高用户数，或者说提高活跃用户数。
推荐系统的成本
- 团队成本；
- 硬件成本；
  - 要存储更多的数据；
  - 要更安全保存数据；
  - 要更快响应用户，才能留住用户；
  - 要更好的开发环境，才能提高工程师开发效率，要知道工程师的时间成本最高。
- 机会成本。
  - 所谓机会成本就是：可能推荐系统并没有帮助产品创造什么价值，反而把很多资源投入在这上面，白白浪费了市场窗口期。

具体案例一

电子商务 — 亚马逊
- 几个组成部分
  - 推荐结果的标题、缩略图以及其他内容属性
  - 推荐结果的平均分
  - 推荐理由
- 推荐方式
  - 基于物品的推荐算法（item-based method），该算法给用户推荐那些和他们之前喜欢的物品相似的物品。
  - 另外一种个性化推荐列表，就是按照用户在Facebook的好友关系，给用户推荐他们的好友在亚马逊上喜欢的物品。
  - 另一个重要的推荐应用就是相关推荐列表。当你在亚马逊购买一个商品时，它会在商品信息下面展示相关的商品。亚马逊有两种相关商品列表，
    - 一种是包含购买了这个商品的用户也经常购买的其他商品
    - 另一种是包含浏览过这个商品的用户经常购买的其他商品
- 效果
  - 亚马逊有20%～30%的销售来自于推荐系统
电影和视频网站 — Netflix
- Netflix
  - 几个组成部分
    - 电影的标题和海报
    - 用户反馈模块——包括Play（播放）、评分和Not Interested（不感兴趣）3种
    - 推荐理由——因为用户曾经喜欢过别的电影
  - 推荐方式
    - 基于物品的推荐算法，即给用户推荐和他们曾经喜欢的电影相似的电影
  - 效果
    - Netflix在宣传资料中宣称，有60%②的用户是通过其推荐系统找到自己感兴趣的电影和视频的
- YouTube
  - 推荐方式
    - 基于物品的推荐算法。
  - 效果
    - YouTube曾经做个一个实验，比较了个性化推荐的点击率和热门视频列表的点击率，实验结果表明个性化推荐的点击率是热门视频点击率的两倍。
个性化音乐网络电台
- 特点
  - 物品空间大物品数很多，物品空间很大，这主要是相对于书和电影而言。
  - 消费每首歌的代价很小对于在线音乐来说，音乐都是免费的，不需要付费。
  - 物品种类丰富音乐种类丰富，有很多的流派。
  - 听一首歌耗时很少听一首音乐的时间成本很低，不太浪费用户的时间，而且用户大都把音乐作为背景声音，同时进行其他工作。
  - 物品重用率很高每首歌用户会听很多遍，这和其他物品不同，比如用户不会反复看一个电影，不会反复买一本书。
  - 用户充满激情用户很有激情，一个用户会听很多首歌。
  - 上下文相关用户的口味很受当时上下文的影响，这里的上下文主要包括用户当时的心情（比如沮丧的时候喜欢听励志的歌曲）和所处情境（比如睡觉前喜欢听轻音乐）。
  - 次序很重要用户听音乐一般是按照一定的次序一首一首地听。
  - 很多播放列表资源很多用户都会创建很多个人播放列表。
  - 不需要用户全神贯注音乐不需要用户全神贯注地听，很多用户将音乐作为背景声音。
  - 高度社会化用户听音乐的行为具有很强的社会化特性，比如我们会和好友分享自己喜欢的音乐。
- Pandora
  - Pandora的算法主要基于内容，其音乐家和研究人员亲自听了上万首来自不同歌手的歌，然后对歌曲的不同特性（比如旋律、节奏、编曲和歌词等）进行标注，这些标注被称为音乐的基因。
  - 然后，Pandora会根据专家标注的基因计算歌曲的相似度，并给用户推荐和他之前喜欢的音乐在基因上相似的其他音乐。
- Last.fm
  - Last.fm记录了所有用户的听歌记录以及用户对歌曲的反馈，在这一基础上计算出不同用户在歌曲上的喜好相似度，从而给用户推荐和他有相似听歌爱好的其他用户喜欢的歌曲。
  - 同时，Last.fm也建立了一个社交网络，让用户能够和其他用户建立联系，同时也能让用户给好友推荐自己喜欢的歌曲。
社交网络
- 社交网络中的个性化推荐技术主要应用在3个方面
  - 利用用户的社交网络信息对用户进行个性化的物品推荐；
  - 信息流的会话推荐；
  - 给用户推荐好友。
- Facebook
  - 最宝贵的数据有两个
    - 一个是用户之间的社交网络关系
    - 另一个是用户的偏好信息
  - 应用
    - Facebook推出了一个推荐API，称为Instant Personalization。该工具根据用户好友喜欢的信息，给用户推荐他们的好友最喜欢的物品。
    - Facebook开发了EdgeRank算法对这些会话排序，使用户能够尽量看到熟悉的好友的最新会话。
    - 社交网站还通过个性化推荐服务给用户推荐好友。

具体案例二

个性化阅读
- Google Reader
  - Google Reader是一款流行的社会化阅读工具。它允许用户关注自己感兴趣的人，然后看到所关注用户分享的文章。
- Zite
  - 个性化阅读工具Zite则是收集用户对文章的偏好信息。
  - 在每篇文章右侧，Zite都允许用户给出喜欢或不喜欢的反馈，然后通过分析用户的反馈数据不停地更新用户的个性化文章列表。Zite推出后获得了巨大的成功，后被CNN收购。
- Digg
  - Digg首先根据用户的Digg历史计算用户之间的兴趣相似度，然后给用户推荐和他兴趣相似的用户喜欢的文章。根据Digg自己的统计，在使用推荐系统后，用户的digg行为明显更加活跃，digg总数提高了40%，用户的好友数平均增加了24%，评论数增加了11%。
基于位置的服务
- 大众点评
个性化邮件
- 概述
  - 垃圾邮件可以通过垃圾邮件过滤器去除，这是一个专门的研究领域，这里就不讨论了。
  - 在正常的邮件中，如果能够找到对用户重要的邮件让用户优先浏览，无疑会大大提高用户的工作效率。
- Tapestry
  - 目前在文献中能够查到的第一个推荐系统Tapestry①就是一个个性化邮件推荐系统，它通过分析用户阅读邮件的历史行为和习惯对新邮件进行重新排序，从而提高用户的工作效率。
- 谷歌
  - 谷歌的研究人员在这个问题上也进行了深入研究，于2010年推出了优先级收件箱功能。
  - 谷歌的研究表明，该产品可以帮助用户节约6%的时间② 。在如今这个时间就是金钱的年代，6%的节约无疑是一大进步。
个性化广告
- 目前的个性化广告投放技术主要分为3种：
  - 上下文广告通过分析用户正在浏览的网页内容，投放和网页内容相关的广告。代表系统是谷歌的Adsense。
  - 搜索广告通过分析用户在当前会话中的搜索记录，判断用户的搜索目的，投放和用户目的相关的广告。
  - 个性化展示广告我们经常在很多网站看到大量展示广告（就是那些大的横幅图片），它们是根据用户的兴趣，对不同用户投放不同的展示广告。雅虎是这方面研究的代表。