Abstract:这篇是1月份头条首次公开的算法原理的笔记记录。
1.头条推荐算法原理
1.1 系统概览
1.资讯推荐系统
”你关心的,才是头条“
本质要解决的问题:用户、环境和资讯的匹配,即
实质:推荐系统其实是一个拟合用户对内容满意度的函数,这个函数需要输入3个维度的变量。
(内容):内容形式多元化,不同内容的特征也不同,需要考虑怎样提取不同内容类型的特征做好推荐
(用户):怎样提取用户特征
(环境):用户在不同场景下的信息偏好不同
结合这3个维度,推荐模型会给出1个预估:预测推荐内容在这一场景下对用户是否合适。
2.特征类型
人的特征:兴趣,职业,年龄,性别,机型,用户行为
环境特征:地理位置,时间,网络,天气
文章特征:主题词,兴趣标签,热度,时效性,质量,作者来源,相似文章
3.如何引入无法直接衡量的目标?
广告&特型内容频控:特型内容比如问答卡片,其推荐目标不完全是让用户浏览,还要考虑吸引用户回答为社区贡献内容,这些内容和普通内容如何混排,怎样控制频控都需要考虑
低俗内容打压&频控
标题党、低质、恶心内容打压
重要新闻置顶&强插&加权
低级别账号内容降权
出于内容生态和社会责任的考量(算法无法完成,需要人工干预)
4.典型推荐算法
Logistic Regression
协同过滤
DNN:深度神经网络
Factorization Machine
GBDT
是经典的监督学习问题,以上5种算法均可实现