资讯推荐系统本质上要解决用户、环境和资讯间的匹配。拟合一个用户对内容满意度的函数,函数的输入变量分为三个维度。
- 第一个维度是内容。头条现在已经是一个综合内容平台,图文、视频、小视频、问答、微头条等,每种内容都有自己的特征。
- 第二个维度是用户特征。包括各种兴趣标签、职业、年龄、性别等,还有很多模型用于刻画隐式的用户兴趣。
- 第三个维度是环境特征。用户随时随地移动,在工作场合、通勤、旅游等不同的场景,信息偏好有所偏移。
结合上面三个维度,模型会给出一个预估,即预测推荐的内容在该场景下对某一用户是否合适。
一个优秀的工业级推荐系统需要非常灵活的算法实验平台,可以支持多种算法组合,包括模型结构调整(推荐效果评估框架)。因为很难有一套通用的模型架构适用于所有的推荐场景。
内容分析和用户标签是推荐系统的两大基石。
内容分析涉及到机器学习、分词、NLP等。
用户标签工程挑战更大。