新闻推荐实例调研

@今日头条@搜狐新闻

1.今日头条推荐

1.1新用户冷启动
  1. 美味爱读:
    新用户接入时建立颗粒较细的兴趣标签系统。
  2. 今日头条:
    通过对用户微博账号的分析建立一个“兴趣图谱”,即根据用户在微博上发布的内容及其所属类别、用户自标签、[社交关系、社交行为](共同好友数、相互评论数、@数)、参与的群组、机型、使用时间等数据源推断用户的兴趣点有哪些。

    用户原始兴趣DNA

图1用户原始兴趣DNA

1.2新闻内容呈现

分三个维度
1) “推荐”
抓取的新闻信息提取几十个到上百个高维特征,并进行降维、相似计算、聚类、分类等处理,然后根据用户兴趣推荐内容
2) “热门”
互联网和社交网站出现最多的新闻
3) 好友动态
好友的评论、转发、收藏的新闻

1.3用户行为(“顶”“踩“”转发“)导致新闻更新

用户行为数据实时的被传输到后台,在用户每次操作的30s内,系统会对用户模型进行更新。

2. 搜狐新闻客户端推荐调研

2.1 用户建模

与内容分类对应,分为长期和短期体系;
- 长期:用户半年阅读行为、更新周期3天(基于用户的半年阅读行为,提取权值最大的标签作为用户长期兴趣——每3天计算一次更新用户画像模型)
- 短期:用户最近两天阅读行为、更新周期10秒(基于用户短期<2天>的阅读行为,提取权值最大标签作为用户短期兴趣——每10秒计算一次画像)

2.2如何通过这个阅读行为提取用户偏好?

用户新闻偏好的获取
1. 启发式方法
2. 基于模型的方法
- a) 贝叶斯网络
- b) 矩阵分解
- c) 决策树
- d) AHP

2.3如何通过用户反馈更新用户偏好?

用户偏好更新

  1. 动态偏好建模技术
  2. 自适应技术
2.4 新闻入库
  1. 内容同步、抽取(每日100万资讯内容,过滤垃圾信息-HTML标签、广告、页面重复内容)
  2. 基于正文内容特征生成全局ID(基于正文内容过滤重复)
  3. 基于标题、摘要、关键词生成clusterID(基于标题及其摘要关键词生成cluster Id;决定cluster sore;根据版权、合作关系、发布时间选择代表文章)
2.3 冷启动
2.3.1. 用户冷启动
  • 关联用户信息
    • 利用其它(sohu)passport挖掘用户其它属性
    • 关联多个设备和账户
    • 关联微博账号获取微博客数据
  • 短期兴趣快速拟合
    • 快速反馈
2.3.2. 内容冷启动
  • 提高试投放PV利用效率
  • 内容分类
    • 新闻内容去重聚合-提高数据覆盖
    • 强化纵向-横向关联关系
    • 强化主题分类精度
    • 频道中引入编辑内容
    • 引入搜狗PV
参考

[1] 泛阅读产品“今日头条”是如何基于微博兴趣图谱做个性化推荐的?
[2] 搜狐新闻客户端的背后大数据技术原理

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值