推荐系统技术内幕（一）：导论篇

最新推荐文章于 2023-04-15 15:54:47 发布

原创最新推荐文章于 2023-04-15 15:54:47 发布

· 1.8k 阅读

版权

摘要

目前炙手可热的AI技术，最成熟的落地应用之一就是推荐系统。目前对介绍推荐系统的资料有很多，有关于数据挖掘，关于推荐算法，关于工程的，等等，但是大多数的资料都是比较零散的、碎片化的，很少有系统全面的知识讲解，我会试图用这一系列的文章为大家展现一个比较完整的推荐系统。本人的讲解将分为以下这些篇章展开:

导论篇: 主要对本系列文章的内容做一个概要性的介绍。
算法篇: 主要介绍推荐系统涉及的各类算法的原理，内容将涵盖传统的推荐算法以及新兴的深度学习类推荐算法，还将包括很多数据清洗、数据挖掘领域的算法。
工程篇: 主要是关于算法如何落地的内容。围绕着算法的落地实现，会有很多工程方面的工作，例如数据的存储和访问(包括用户行为日志数据，训练数据，画像数据，等等)，模型的训练与更新，以及在线serving，等等，涉及系统架构、技术选型等大大小小的事情。大厂的业务场景复杂，实力雄厚，可能会选择自主研发，对于中小长来说，最经济的方式还是借助开源工具和社区的力量，快速搭建和验证算法效果。对涉及的各种开源工具，我也会做些介绍。
团队篇: 前面的两个主题都是关于技术方面的，最后一个主题将介绍一下关于推荐系统团队建设方面的一些浅显的思考。

本文作为导论篇，在讲解推荐系统的技术实现之前，本篇将用剩下的篇幅回答下面几个问题:

什么是推荐系统
推荐系统与普通软件系统相比有哪些特点
什么是好的推荐系统，专业术语就是如何评测推荐系统
如何实现好的推荐系统

首先我们来回答第一个问题，什么是推荐系统。

推荐系统的定义

维基百科对推荐系统的定义是：

A recommender system or a recommendation system (sometimes replacing 
"system" with a synonym such as platform or engine) is a subclass of 
information filtering system that seeks to predict the "rating" or 
"preference" a user would give to an item

翻译过来就是：

推荐系统是一种信息过滤系统，它试图预测一个用户对一件物品的"评分"或则"偏好"。

百度百科的定义是：

推荐系统是利用电子商务网站向客户提供商品信息和建议，帮助用户决定应该购买什么产品，模拟
销售人员帮助客户完成购买过程。个性化推荐是根据用户的兴趣特点和购买行为，向用户推荐用户
感兴趣的信息和商品。

上面两个定义都有些偏颇，维基百科的将推荐系统定义为一种信息过滤系统，这一点个人还是比较认同的，但是定义的后半部分描述推荐系统的实现方式是通过预测一个用户对物品的"评分"，这个观点就不是很全面。

推荐系统除了通过评分预测之外，还有很多中实现方式，后面我将具体介绍。定义的后半部分与其说是在定义推荐系统，倒不如说是在描述推荐系统的实现方式，这本身就是两个问题。

百度百科的定义，问题就更明显了，它其实是描述了电商领域的商品推荐系统，属于推荐系统的一个具体实例，而并非推荐系统的定义。

《Recommender Systems Handbook》中对推荐系统的定义是：

Recommender Systems(RSs) are software tools and techniques providing
suggestions for items to be of use  to a user.The suggestions are relate 
to various decision-making processes, such as what items to buy, 
what music to listen to, or what online news to read.

翻译一下就是：推荐系统为用户的各种决策，比如买什么商品、听什么音乐、看什么新闻等，提供建议的物品。

这个定义中规中矩，没什么大的问题，但本人觉得没有反应推荐系统背后的本质。

综合前面的几种定义，我认为要解释清楚什么是推荐系统，可以从下面两个方面来回答:

如何实现好的推荐系统

实现好的推荐系统，首先需要开发者养成目标驱动的思维方式，目标是开发推荐系统的时候首先要确定的问题，因为推荐系统追求的是目标的增长。这一点与传统软件系统有很大区别，后者追求的是系统行为满足预期。

其次，宏观上我们需要了解做好一个推荐系统需要哪些关键要素。

这问题上目前存在一些误解，最常见的误解是过高估计算法的重要性。甚至认为推荐系统约等于推荐算法。这肯定是不对的，个人总结了推荐系统的关键要素有以下几点：

数据: 数据是推荐系统上层建筑的基石。包括用户行为数据，物品数据。事实上推荐系统的大部分算法都是围绕数据处理的。包括数据采样，数据清洗，数据结构化等等。数据决定了推荐系统的上限，其他要素是逼近上线的方式。
领域知识: 例如音乐推荐、新闻推荐、商品推荐等等，属于不同领域的推荐系统。领域知识相对与通用知识而言的。音乐推荐有自己的领域知识，新闻推荐有自己的领域知识，商品推荐领域也有自己的领域知识。算法就属于通用知识。善用领域知识能解决很多问题，例如对于推荐系统的顽疾：冷启动问题，一种解决方式就是根据具体领域的实际情况，结合领域知识，人工制定出一些人推荐规则进行推荐。另外，推荐系统的目标优化过程，也里不开具体领域知识。因为算法可能帮助我们自动学习出很多参数，但是推荐系统里一定存在着无法自动学习参数，或是因为数据稀疏无从学习，或是因为计算量庞大，或是因为还不存在很好的学习算法，等等，此时就需要人工决策这些参数了，而决策的重要依据便是领域知识。推荐系统的目标与算法之间存在的一些鸿沟，需要领域知识去填充。
算法: 算法的重要性就不用在强调，后面将会用专门的篇章来介绍算法。因为与领域知识相比，它属于推荐系统通用知识。

这些就是推荐系统的关键要素，也是分析和解决问题的方向。

好的问题是解决问题的一半，因为提问其实反应了思考的角度和方向。面对如何实现好的推荐系统这个大问题，我习惯性会问自己以下这些问题：