@今日头条@搜狐新闻
1.今日头条推荐
1.1新用户冷启动
- 美味爱读:
新用户接入时建立颗粒较细的兴趣标签系统。 今日头条:
通过对用户微博账号的分析建立一个“兴趣图谱”,即根据用户在微博上发布的内容及其所属类别、用户自标签、[社交关系、社交行为](共同好友数、相互评论数、@数)、参与的群组、机型、使用时间等数据源推断用户的兴趣点有哪些。
图1用户原始兴趣DNA
1.2新闻内容呈现
分三个维度
1) “推荐”
抓取的新闻信息提取几十个到上百个高维特征,并进行降维、相似计算、聚类、分类等处理,然后根据用户兴趣推荐内容
2) “热门”
互联网和社交网站出现最多的新闻
3) 好友动态
好友的评论、转发、收藏的新闻
1.3用户行为(“顶”“踩“”转发“)导致新闻更新
用户行为数据实时的被传输到后台,在用户每次操作的30s内,系统会对用户模型进行更新。
2. 搜狐新闻客户端推荐调研
2.1 用户建模
与内容分类对应,分为长期和短期体系;
- 长期:用户半年阅读行为、更新周期3天(基于用户的半年阅读行为,提取权值最大的标签作为用户长期兴趣——每3天计算一次更新用户画像模型)
- 短期:用户最近两天阅读行为、更新周期10秒(基于用户短期<2天>的阅读行为,提取权值最大标签作为用户短期兴趣——每10秒计算一次画像)
2.2如何通过这个阅读行为提取用户偏好?
用户新闻偏好的获取
1. 启发式方法
2. 基于模型的方法
- a) 贝叶斯网络
- b) 矩阵分解
- c) 决策树
- d) AHP
2.3如何通过用户反馈更新用户偏好?
用户偏好更新
- 动态偏好建模技术
- 自适应技术
2.4 新闻入库
- 内容同步、抽取(每日100万资讯内容,过滤垃圾信息-HTML标签、广告、页面重复内容)
- 基于正文内容特征生成全局ID(基于正文内容过滤重复)
- 基于标题、摘要、关键词生成clusterID(基于标题及其摘要关键词生成cluster Id;决定cluster sore;根据版权、合作关系、发布时间选择代表文章)
2.3 冷启动
2.3.1. 用户冷启动
- 关联用户信息
- 利用其它(sohu)passport挖掘用户其它属性
- 关联多个设备和账户
- 关联微博账号获取微博客数据
- 短期兴趣快速拟合
- 快速反馈
2.3.2. 内容冷启动
- 提高试投放PV利用效率
- 内容分类
- 新闻内容去重聚合-提高数据覆盖
- 强化纵向-横向关联关系
- 强化主题分类精度
- 频道中引入编辑内容
- 引入搜狗PV