当前深度学习技术已经在搜索、广告、推荐等点击率预估及类似场景中得到了广泛和有效的运用,取得了一些突破性的进展。其中一部分进展得益于在隐藏层之外显示构造特征组合,从而弥补神经网络的局部低效表达能力。从这个角度看,特征交叉等传统的特征工程技术仍将在一定时间内继续存在。另一方面,在工业场景中,作为基线的LR/FTRL模型或者GBDT模型,也是考察深度神经网络效果的必要对照实验组,甚至是初次场景建模的首选打底方案。
本文主要介绍配合这类方法的关键技术设计要点:高性能特征工程的Pipeline设计。这也是实在智能在实施AI赋能过程中算法积淀的产物之一,已在多个大规模数据应用场景得到效果和性能等多方面的验证。
一、设计范围
数据类型:结构化数据(Tabular Data)
场景类型:大规模样本、高维稀疏特征、实时特征
非结构化数据不是本文的设计范围,下面只做简单描述。
1.非结构化数据类型
(1)文本、图像、语音数据等
(2) 特点:具有空间或时间相关性
2.一般采用深度学习端到端建模
(1)不同框架提供不同的一致性端到端解决方案
(2) Pytorch/Fastai(离线)— Caffe2(在线)
(3) Keras(离线) — TFX(在线)
3.拥有特定数据预处理工具
(1) To