新闻推荐实例调研

最新推荐文章于 2018-08-30 16:18:49 发布

老男孩-Leo

最新推荐文章于 2018-08-30 16:18:49 发布

阅读量1.2k

点赞数

分类专栏：推荐系统算法文章标签：今日头条新闻搜狐新闻推荐

本文链接：https://blog.csdn.net/nihaoxiaocui/article/details/61616454

版权

算法同时被 2 个专栏收录

11 篇文章 0 订阅

订阅专栏

推荐系统

7 篇文章 0 订阅

订阅专栏

@今日头条@搜狐新闻

1.今日头条推荐

1.1新用户冷启动

美味爱读：
新用户接入时建立颗粒较细的兴趣标签系统。
今日头条：
通过对用户微博账号的分析建立一个“兴趣图谱”，即根据用户在微博上发布的内容及其所属类别、用户自标签、[社交关系、社交行为]（共同好友数、相互评论数、@数）、参与的群组、机型、使用时间等数据源推断用户的兴趣点有哪些。

图1用户原始兴趣DNA

1.2新闻内容呈现

分三个维度
1) “推荐”
抓取的新闻信息提取几十个到上百个高维特征，并进行降维、相似计算、聚类、分类等处理，然后根据用户兴趣推荐内容
2) “热门”
互联网和社交网站出现最多的新闻
3) 好友动态
好友的评论、转发、收藏的新闻

1.3用户行为（“顶”“踩“”转发“）导致新闻更新

用户行为数据实时的被传输到后台，在用户每次操作的30s内，系统会对用户模型进行更新。

2. 搜狐新闻客户端推荐调研

2.1 用户建模

与内容分类对应，分为长期和短期体系；
- 长期：用户半年阅读行为、更新周期3天（基于用户的半年阅读行为，提取权值最大的标签作为用户长期兴趣——每3天计算一次更新用户画像模型）
- 短期：用户最近两天阅读行为、更新周期10秒（基于用户短期<2天>的阅读行为，提取权值最大标签作为用户短期兴趣——每10秒计算一次画像）

2.2如何通过这个阅读行为提取用户偏好？

用户新闻偏好的获取
1. 启发式方法
2. 基于模型的方法
- a) 贝叶斯网络
- b) 矩阵分解
- c) 决策树
- d) AHP

2.3如何通过用户反馈更新用户偏好？

用户偏好更新

动态偏好建模技术
自适应技术

2.4 新闻入库

内容同步、抽取（每日100万资讯内容，过滤垃圾信息-HTML标签、广告、页面重复内容）
基于正文内容特征生成全局ID（基于正文内容过滤重复）
基于标题、摘要、关键词生成clusterID（基于标题及其摘要关键词生成cluster Id；决定cluster sore；根据版权、合作关系、发布时间选择代表文章）

2.3 冷启动

2.3.1. 用户冷启动

关联用户信息
- 利用其它（sohu）passport挖掘用户其它属性
- 关联多个设备和账户
- 关联微博账号获取微博客数据
短期兴趣快速拟合
- 快速反馈

2.3.2. 内容冷启动

提高试投放PV利用效率
内容分类
- 新闻内容去重聚合-提高数据覆盖
- 强化纵向-横向关联关系
- 强化主题分类精度
- 频道中引入编辑内容
- 引入搜狗PV

参考

[1] 泛阅读产品“今日头条”是如何基于微博兴趣图谱做个性化推荐的？
[2] 搜狐新闻客户端的背后大数据技术原理

老男孩-Leo

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
新闻推荐实例调研

@今日头条@搜狐新闻1.今日头条推荐1.1新用户冷启动美味爱读：新用户接入时建立颗粒较细的兴趣标签系统。今日头条：通过对用户微博账号的分析建立一个“兴趣图谱”，即根据用户在微博上发布的内容及其所属类别、用户自标签、[社交关系、社交行为]（共同好友数、相互评论数、@数）、参与的群组、机型、使用时间等数据源推断用户的兴趣点有哪些。图1用户原始兴趣DNA1....
复制链接

扫一扫

专栏目录