第四范式资深研究员罗远飞针对推荐系统中的高维稀疏数据,介绍了如何在指数级搜索空间中,高效地自动生成特征和选择算法;以及如何结合大规模分布式机器学习系统,在显著降低计算、存储和通信代价的情况下,从数据中快速筛选出有效的组合特征。
以下是罗远飞的分享:
大家好!我是第四范式的罗远飞!
很高兴能有机会和大家一起交流关于自动机器学习方面的一些工作。我在第四范式的工作大都和自动机器学习相关,之前的精力主要集中在自动特征工程。虽然模型改进能够带来稳定的收益,但是更为困难。所以如果是在做一个新的业务,可以先尝试从做特征入手,特征工程往往能够带来更明显的收益。
AutoCross 的背景
本次报告所提及的自动机器学习,是针对表数据的自动机器学习。表数据是一个经典的数据格式,它一般包含多列,列可能对应离散特征或者连续特征。我们不能将用于图像、语音或者 NLP 中的模型直接拿过来用,需要做特定的优化。
本次报告提及的特征组合,特指 Feature Crossing,即两个离散特征的笛卡尔积。以 "去过的餐厅" 为例,我经常去麦当劳,那么我和麦当劳可以做为一个组合特征;再比如我去肯德基,则我和肯德基也可做为一个组合特征。
本次报告提及的自动特征工程,是指自动从上表数据中发现这些有效的组合特征。比如我是一位软件工程师,是一个特征;在第四范式工作,是另外一个特征。这两个特征是分成两列储存的,我们可以把这两列组合成一个新的特征,这个特征的指示性更强,更具有个性化。
为什么需要自动特征工程呢?
首先,特征对建模效果有着非常重要的作用。其次,客户的场景远比建模专家多,如我们的先荐业务有上千家媒体,我们不能给每个业务都配备一个专家,针对每一个场景人工去建模。最后,即使只有一个业务,数据也是多变的,面临的场景也是不停变化的,所以我们要做自动特征工程,不能让人力和我们的业务量呈正比。
AutoCross 的相关研究
自动特征工程主要分为两大类,一类是显式特征组合,另一类是隐式特征组合。
① 显式的特征组合
显式的特征组合有两个代表性工作,