实在智能RPA学院|高性能特征工程Pipeline设计要点

置顶

实在智能

于 2020-04-27 15:48:39 发布

阅读量631

点赞数

分类专栏： RPA技术文章标签：数据库

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/bobobit/article/details/105792407

版权

本文探讨了在深度学习场景中高性能特征工程Pipeline的设计要点，包括数据类型、设计目标、数据模型、转换过程等。强调了一致性、复杂性、高性能和扩展性的目标，并详细阐述了如何处理结构化数据，以及在大规模数据应用中的验证。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

当前深度学习技术已经在搜索、广告、推荐等点击率预估及类似场景中得到了广泛和有效的运用，取得了一些突破性的进展。其中一部分进展得益于在隐藏层之外显示构造特征组合，从而弥补神经网络的局部低效表达能力。从这个角度看，特征交叉等传统的特征工程技术仍将在一定时间内继续存在。另一方面，在工业场景中，作为基线的LR/FTRL模型或者GBDT模型，也是考察深度神经网络效果的必要对照实验组，甚至是初次场景建模的首选打底方案。

本文主要介绍配合这类方法的关键技术设计要点：高性能特征工程的Pipeline设计。这也是实在智能在实施AI赋能过程中算法积淀的产物之一，已在多个大规模数据应用场景得到效果和性能等多方面的验证。

一、设计范围

数据类型：结构化数据（Tabular Data）

场景类型：大规模样本、高维稀疏特征、实时特征

非结构化数据不是本文的设计范围，下面只做简单描述。

1.非结构化数据类型

（1）文本、图像、语音数据等

（2）特点：具有空间或时间相关性

2.一般采用深度学习端到端建模

（1）不同框架提供不同的一致性端到端解决方案

（2） Pytorch/Fastai（离线）— Caffe2（在线）

（3） Keras（离线） — TFX（在线）

3.拥有特定数据预处理工具

（1） To

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。