罗远飞:自动特征工程在推荐系统中的研究

本文由第四范式罗远飞分享,探讨了自动特征工程在推荐系统中的重要性,特别是针对高维稀疏数据的自动特征生成和选择。介绍了AutoCross算法,包括显式和隐式特征组合,以及相关的数据预处理、集束搜索、逐域对数几率回归和连续小批量梯度下降等技术,展示了在多个数据集上优于传统方法的效果。
摘要由CSDN通过智能技术生成

第四范式资深研究员罗远飞针对推荐系统中的高维稀疏数据,介绍了如何在指数级搜索空间中,高效地自动生成特征和选择算法;以及如何结合大规模分布式机器学习系统,在显著降低计算、存储和通信代价的情况下,从数据中快速筛选出有效的组合特征。

以下是罗远飞的分享:

大家好!我是第四范式的罗远飞!‍

很高兴能有机会和大家一起交流关于自动机器学习方面的一些工作。‍我在第四范式的工作大都和自动机器学习相关,之前的精力主要集中在自动特征工程。虽然模型改进能够带来稳定的收益,但是更为困难。‍所以如果是在做一个新的业务,‍可以先尝试从做特征入手,特征工程往往能够带来更明显的收益。

AutoCross 的背景

‍本次报告所提及的自动机器学习,是针对表数据的自动机器学习。‍表数据是一个经典的数据格式,它一般包含多列,列可能对应离散特征或者连续特征。‍我们不能将用于图像、语音或者 NLP 中的模型直接拿过来用,需要做特定的优化。‍

本次报告提及的特征组合,特指 Feature Crossing,即两个离散特征的笛卡尔积。以 "去过的餐厅" 为例,我经常去麦当劳,‍那么我和麦当劳可以做为一个组合特征;再比如我去肯德基,则我和肯德基也可做为一个组合特征。

本次报告提及的自动特征工程,是指‍自动从上表数据中发现这些有效的组合特征。比如我是一位软件工程师,是一个特征;在第四范式工作,是另外一个特征。这两个特征是分成两列储存的,我们可以把‍这两列组合成一个新的特征,‍这个特征的指示性更强,更具有个性化。‍

为什么需要自动特征工程呢?

首先,特征对建模效果有着非常重要的作用。其次,客户的场景远比建模专家多,‍如我们的先荐业务有上千家媒体,我们不能给每个业务都配备一个专家,针对每一个场景人工去建模。最后,即使只有一个业务,数据也是多变的,面临的场景也是不停变化的,‍所以我们要做自动特征工程,‍不能让人力和我们的业务量呈正比。

AutoCross 的相关研究

自动特征工程主要分为两大类,一类是显式特征组合,‍另一类是隐式特征组合。

① 显式的特征组合

显式的特征组合有两个代表性工作,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值