今日头条的个性化推荐

一、今日头条个性化推荐流程

服务器1000台,代码实现爬虫功能,在其他传媒网站和门户上抓取各种信息,如果在网站上抓取到纸媒内容,则优先从纸媒门户上抓取信息;抓取信息后,对有价值信息进行分析归类;推送到有感兴趣的头条客户端;用户注册或登录时,通过数据挖掘分析,推荐感兴趣的信息;推送后根据用户体验(阅读时间、评论)判断信息是否符合客户需求,再进一步调整推送信息内容;敏感信息审查;页面转码(对纸媒或网站信息-附带大量广告或样式信息)转码后保存内容资源,格式更适合阅读

聚合媒体除了汇聚来自不同媒体的内容外,更重要的是对不同信息进行分类排序,得到一个信息汇总界面

二、推荐算法的基础-构造相似性矩阵

相似性矩阵可是物与物间的相似性,如书籍间的相似性、音乐间的相似性,基于物品的协同过滤算法可利用用户的历史行为,因而推荐结果具有较强解释性。基于物品的协同过滤算法主要分为两步:1.计算物品之间的相似度,2.根据用户的历史行为生成用户推荐列表

三、基于物品的CF举例

假设有四个用户:用户1在今日头条的浏览记录是[a、b、d];用户2的浏览记录是[b、c];用户3的浏览记录是[c、d];用户4的浏览记录是[b、c、d];可将这四个人的浏览行为表达为以下四个物品矩阵:

用户1

用户3

 

a

b

c

d

 

a

b

c

d

a

 

1

 

1

a

 

 

 

 

b

1

 

 

1

b

 

 

 

 

c

 

 

 

 

c

 

 

 

1

d

1

1

 

 

d

 

 

1

 

用户2

用户4

 

a

b

c

d

 

a

b

c

d

a

 

 

 

 

a

 

 

 

 

b

 

 

1

 

b

 

 

1

1

c

 

1

 

 

c

 

1

 

1

d

 

 

 

 

d

 

1

1

 

将个体用户的物品矩阵相加,汇总成总矩阵M,M[i][j]表示i,j物品被多个用户同时选取的个数(个数越多,则i,j相似性更高)。基于物品间的相似度,如果有一个新用户进入系统,并且他阅读了新闻c(trigger item集合),那么ItemCF算法可以很快给出与新闻c相似度最高的新闻(b和d),并推荐给这个新用户。在推荐过程中,推荐系统可根据用户行为不断优化相似矩阵,或用户可手动对每个新闻的兴趣标出

 

a

b

c

d

a

 

1

 

1

b

1

 

2

2

c

 

2

 

2

d

1

2

2

 

这两个表格是今日头条热点新闻及个人定制新闻基础原理,分两步:1.先找出新闻之间的热点与相似度,2.将热点及相似度高的新闻推送给用户

假设在抗战胜利70周年当天,有4个人同时浏览今日头条的新闻:

A是女读者,她点击秋季糖水制作方法、育儿应注意的五个事项、阅兵式、新型武器等新闻

B是中年上班族,他点击了阅兵式、中国最新兵器谱等新闻

C是一位年长者,他点击了养生、阅兵式、新型武器等新闻

D是一位刚毕业的男大学生,他点击了英雄联盟攻略、好莱坞旅行攻略、阅兵式、新型武器等新闻

热点和相似度的产生过程:

STEP 1:四个人同时点击阅兵式和新型武器,系统算法就会通过点击和停留时间计算出阅兵式和新型武器是当天热点

STEP 2:阅兵式和新型武器同时被多人点击,代表他们之间具有相似性

STEP 3:当新进用户点击新闻时,今日头条会以最快速度分析他点击的内容,并在已经排查出的热点新闻中寻找他所感兴趣的相关内容匹配,引导阅读热点

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值