实在智能RPA学院|高性能特征工程Pipeline设计要点

本文探讨了在深度学习场景中高性能特征工程Pipeline的设计要点,包括数据类型、设计目标、数据模型、转换过程等。强调了一致性、复杂性、高性能和扩展性的目标,并详细阐述了如何处理结构化数据,以及在大规模数据应用中的验证。
摘要由CSDN通过智能技术生成

当前深度学习技术已经在搜索、广告、推荐等点击率预估及类似场景中得到了广泛和有效的运用,取得了一些突破性的进展。其中一部分进展得益于在隐藏层之外显示构造特征组合,从而弥补神经网络的局部低效表达能力。从这个角度看,特征交叉等传统的特征工程技术仍将在一定时间内继续存在。另一方面,在工业场景中,作为基线的LR/FTRL模型或者GBDT模型,也是考察深度神经网络效果的必要对照实验组,甚至是初次场景建模的首选打底方案。

本文主要介绍配合这类方法的关键技术设计要点:高性能特征工程的Pipeline设计。这也是实在智能在实施AI赋能过程中算法积淀的产物之一,已在多个大规模数据应用场景得到效果和性能等多方面的验证。

一、设计范围

数据类型:结构化数据(Tabular Data)

场景类型:大规模样本、高维稀疏特征、实时特征

非结构化数据不是本文的设计范围,下面只做简单描述。

1.非结构化数据类型

(1)文本、图像、语音数据等

(2) 特点:具有空间或时间相关性

2.一般采用深度学习端到端建模

(1)不同框架提供不同的一致性端到端解决方案

(2) Pytorch/Fastai(离线)— Caffe2(在线)

(3) Keras(离线) — TFX(在线)

3.拥有特定数据预处理工具

(1) To

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值