个人总结:
今日头条新闻资讯类推荐,主要使用基于资讯内容和要用户标签进行的推荐,同时也使用了协同过滤算法,
因为资讯类的时效性,存在冷启动的问题,对文本语义特征的挖掘和用户标签的挖掘,可以解决这个问题,
今日头条通过不同算法组合,构建了推荐模型,和召回策略,对一个用户,先用其兴趣等标签,过滤候选资讯,然后对召回的资讯调用推荐模型计算得分进行推荐。
今日头条的文本特征分为语义挖掘和隐式的语义特征,语义挖掘主要是得到文章的分类,主题等,是为了文章的分类、用户兴趣表达等用途使用,隐式的语义特征主要是利用NLP技术,提取特征词,关键词等,隐式特征可以很好的帮助推荐且难度较小,但是显示的挖掘基于上述原因也是必不可少的。今日头条的文章分类算法采用的是逐层分类的方式,每个分类器根据分类问题的特点和难度是异构的,基本分类器主要有:SVM、CNN、RNN
用户标签,主要是根据文本的语义挖掘结果进行处理,并且加入了一些策略,如时间衰减、热度惩罚、未点击惩罚等
同时模型评估对一个模型的优化很重要。对内容的安全控制是一个红线。
主要收获:
1)对于新闻资讯类内容推荐,因为实时性较强,存在冷启动问题,协同类特征无法使用,所以需要文本特征
2)内容分析和用户标签是两大基石
3)推荐的本质是解决用户、环境和资讯的匹配
4)召回模型的使用,先用召回模型缩小资讯范围,再使用推荐模型计算是否推荐和得分
5)典型的推荐特征