达观数据个性化推荐系统实践

文 本 智 能 处 理 专 家
达观数据联合创始人 于敬 
目录
达观数据介绍
推荐系统概述
搭建推荐系统的关键算法
难点分析和解决方法
深度学习在推荐系统中的应用
进阶资源推荐
数据型产品的标配-推荐系统
淘宝
淘宝为每位不同的用户呈现
不同的首页商品
网易云音乐
网易云音乐根据用户的
音乐口味推荐不同的歌

今日头条
今日头条根据每个用户
的兴趣推荐不用的新闻
资讯
--文本:新闻、博客、小说、论文、……
--图片:风景、商品、旅游、……
--音频:歌曲、歌手、专辑、……
--视频:电影、电视剧、综艺节目、短视频、……
--其他:APP、位置服务、……
--SNS:人人、群组、……
常见的推荐系统应用场景
个性化推荐 相关推荐 热门推荐
常以“推荐”、“猜你喜
欢”、“发现”等形式出现,
一般放在首页
常以“相关推荐”、“看了还
看”、“买了还买”等形式出
现,一般放在内容详情页
基于上报的各种数据进行计算,
得到的排行榜,支持全局排行以
及分类排行等,位置不限
推荐系统对于用户的核心价值


用户的诉求 推荐系统的功能
l 帮用户便捷的筛选出感兴趣的内容
l 面对陌生领域时提供参考意见
l 需求不明确时,作用户的“贴心助手”
l 满足用户的好奇心
l 描述物品的特点,并与用户的个性化偏好进行匹配
l 进行有效的信息过滤以解决用户的过载问题
l 根据用户反馈迅速捕捉用户的兴趣,以及兴趣的变化
l 选择合适的场景、时机、表现方式进行推荐
个性化带来的显著效果
l 电商巨头亚马逊每年30%的收入来自个性化推荐;
l 自2008 年起,推荐算法为 YouTube 每天增加了数
十万小时的观看时长,每年视频点击量增幅都达到
50% ;
l Linkedin通过propensity model提供机器学习,最
终为公司带来了数十倍的持续稳定的增长;
l 进入京东、淘宝app或者网页端,每个用户的首页展
示甚至Logo都是依据行为偏好进行精准推荐,个性
化推荐系统是大势所趋。
什么是个性化推荐
BEFORE 单调刻板 用户流失  AFTER 千人千面 转化率高
l 个性化推荐系统是用户与内容之间的桥梁,
更快更准建立偏好关系,提高用户留存率;
l 个性化推荐系统好比筛网,从用户角度筛选
出喜好的内容;从内容角度,筛选出匹配的
用户群;
l 秒级响应用户点击反馈,保障推荐内容时效
性、多样性,时刻给用户惊喜的结果;
解决两大问题
l 信息过载
l 长尾问题
推荐系统的主要设计目标
功能
效果
性能


种类丰富完善,例如:相关推荐、个
性化推荐、热门推荐
推荐的高准确性,推荐结果的完备性
快速、稳定
功能
效果 性能
功能、效果、性能三方面相辅相成、互相作用与影
响;良好的推荐性能需要进行全面考虑与平衡
用户体验是根本,细分为三个部分:

总体架构


推荐流程


• 重量级算法
• 大数据集群
• 小时
• 千
• 轻量级算法
• 内存+RDB
• 秒
• 百
• 业务规则
• 内存
• 毫秒
• 十
召回 粗排 精排
离线 近线 在线
热门推荐
l生成多维度的热门数据
l广为人知,从众心理
l易于实现,按照固定指标排序
l人工编辑
基于内容的推荐


l 单一:标签,类别,品牌,价格等
l 组合:类别+价格,品牌+价格等
l 类别扩展
l 语义扩展
商品
标题
类别
标签
品牌
……
价格
折扣
人群
基于主题模型的推荐


l 生成item向量
l 计算item的相似度
l topN推荐
协同过滤


• item-similarity
• prediction
• user-similarity
• prediction
注:实际使用中,距离计算公式有大量调整和变形
user-based CF
item-based CF
Latent Factor Model


l 偏好信息的充分利用
l 能充分利用用户、物品的profile等属性信息
l 属性之间能方便的进行各种组合
l 解决显式反馈数据过少的问题
用户模型构建


l 生成多维度的偏好数据
l 用户群体聚类
l 用户分类
l 用户向量构建
多算法融合
l Linear Model
l Blending
l Ensemble
• Logistic Regression
• RBM
• GBDT
• …


 
构建推荐系统的常见难点


1 如何精准把握用户兴趣?
• 用户兴趣不仅存在多样性,而且会随着时间的变化
而动态变化
• 对用户兴趣的挖掘需要海量数据,如何合理建模
• 不同算法模型对用户兴趣的刻画结果不同,如何优
化模型
3 实际应用面临诸多考验
• 数据量膨胀快,且冷热不均
• 用户兴趣变化快,模型更新跟不上
• 算法调优,效果越调越差
• 机器资源有限、存储有限常出现性能瓶颈
4 推荐结果单调性和重复性
• 推荐内容越来越单调
• 优质内容得不到曝光
• 低俗或猎奇内容会赢得大量推荐曝光
• 仅依赖内容分类和标签的推荐质量低下
2 冷启动问题如何解决?
• 用户冷启动:用户冷启动需要解决如何给新用户进行
个性化推荐的问题。当新用户到来时,我们没有他的
行为数据,基于用户行为数据的推荐算法显然不适用
• 物品冷启动:物品冷启动需要解决如何将新的物品快
速推荐给可能对它感兴趣的用户
长短期兴趣画像让模型效果稳定提升


l 过滤:将历史推荐过、质量不佳、不满足
用户需求内容过滤掉,提高推荐品质保持
稳定的推荐效果。
l 排序:引入时间因子,捕捉用户长短期兴
趣偏好,采用机器学习方法灵活调整推荐
列表顺序,将更吸引用户的内容前置。
l 优化:随着时间推移,用户画像逐渐丰
富,达观技术团队持续优化算法引擎,保
障数据指标稳定攀升。
时间






快速建模技术解决冷启动问题
l 毫秒级快速生成新用户的用户
画像,迅速缓解冷启动
l 达观独特的CLUB(online
clustering bandits)算法,自
适应调整新用户推荐结果
l 通过自然语言处理技术,深度挖
掘建立新物品的画像
“三级火箭”架构保障系统稳定和毫秒级反馈


l 达观系统架构分为三级火箭:由Offline-Nearline-
Online三级依次衔接构成,融合了各类推荐算法和
数据
l Offline系统提供复杂离线运算,Online系统提供灵
巧的实时运算,Nearline衔接,整体兼顾了稳定性
和灵敏性
l 系统运用了大量NoSQL,内存计算、Spark
Stearming、Kafka等技术,确保了在高性能要求下
系统强大的可靠性
文本处理


穿上效果很好看保暖性很强,一级棒,毛领也很好看,面
料设计也好,而且还防水,很好的不错的。
评论分词
短句情感
分析
短句重要
性排序
观点抽取
穿上/效果/很/好看/保暖性/很/强,一级/棒,毛领/
也/很/好看,面料/设计/也/好,而且/还/防水,很
好/的/不错/的。
正面,正面,正面,正面,正面,正面
穿着好看 保暖性强 毛领好看 面料好 防水
穿着好看 保暖性强
面料好 防水

Embedding处理


l 词embedding,内容多样性优化
l item embedding,结果召回
l user和item的向量,特征工程
item标签 标签embedding 相似标签
用户行为数据 item embedding 相似item
feature
vector
machine
learning
基于DNN的推荐


l 模型采用MLP
l 训练时softmax做多分类
l 预测时计算与所有视频的相似度
l top K个视频
l 兴趣视频
l 兴趣搜索
l 用户地理位置
l 用户性别
l 视频发布时间
基于DKN的推荐

 


Wide&Deep
Wide:线性模型+特征组合。记忆性好、可解释性强
Deep:deep learning,几乎不需要特征工程,可以学习到更深层次的隐藏特征


DeepFM

l 没有预训练
l 共享Feature Embedding,没有特征工程
l 同时学习低阶和高阶组合特征
模型-排序


LR
• 线性
• 人工特征工程
FM,FFM
GBDT+LR
Xgboost + LR
• 非线性
• 多特征组合
DeepFM
Wide&Deep
•深度学习
•调参
XDeepFM


l 由linear、DNN、CIN三部分组成
l CIN实现了自动学习显式的高阶特征
交互
l 该模型在几个数据集上都取得了超
过DeepFM模型的效果
目录
达观数据介绍
推荐系统概述
搭建推荐系统的关键算法
难点分析和解决方法
深度学习在推荐系统中的应用
进阶资源推荐
心得体会
• 一切从用户出发,避免本末倒置
• 搭建一个推荐系统不难,如何持之以恒地提升效果是
关键
• 没有坏的方法,只有坏的用法,因地制宜、对症下药
• 没有最好,只有更好,体验和效果需要兼顾与时俱进

 

欢迎加qq群:953404975

微信群:paper go

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值