深度学习笔记：推理服务

TaoTao Li

已于 2022-07-24 11:32:31 修改

阅读量2.7k

点赞数 1

分类专栏： tensorflow 深度学习文章标签：深度学习人工智能机器学习

于 2022-07-24 11:23:18 首次发布

本文链接：https://blog.csdn.net/hit0803107/article/details/125951019

版权

tensorflow 同时被 2 个专栏收录

6 篇文章

订阅专栏

深度学习

2 篇文章

订阅专栏

在线推理服务

解决的问题
样本处理
特征抽取(生成)
Embeding查询
NN计算
总结
参考资料

解决的问题

模型训练解决模型效果问题，模型推理解决模型实时预测问题。推理服务是把训练好的模型部署到线上，进行实时预测的过程。如阿里的RTP系统

顾名思义，实时预测是相对于非实时预测(离线预测)而言，非实时预测是将训练好的模型参数拆分后保存到在线(通常kv的形式)，当请求到来时直接进行kv查询，查询本身是实时的，但是没有实时计算过程，也就是查到就有结果，查不到就没有结果。因此效果会没有实时预测那么好。

推理服务主要关注的是实时性，解决实时性问题，则产生一系列问题需要解决，包括高并发、可用性、稳定性、通用型、资源利用优化等问题。后续会针对问题和解决方案逐一展开讨论。

典型的推理服务可以划分为四个阶段：样本处理、特征抽取、Embedding查询、NN计算
在这里插入图片描述

样本处理

样本处理是根据线上用户行为(如加购、收藏、浏览等)打点、预测结果(可能感兴趣、可能购买等)打点，获取模型训练所需要的原始数据的过程。一般是在离现阶段批量完成，涉及大量的用户在线行为join操作，不同来源的用户行为拼接的操作。

特征抽取(生成)

特征抽取是将样本数据转化为模型训练所需的数据表达形式的过程，也称之为特征生成。
特征一般分为Sparse(稀疏)特征和Dense(稠密)特征。
特征又可以分为：Item(商品/物料)特征、User(用户)特征、Context(上下文)特征、Combine(组合)特征、Sequence(序列)特征等，Sequence特征又可以划分为User Sequence和Item Sequence特征。

特征抽取过程

在这里插入图片描述
特征抽取也称为特征生成(Feature Generate)，是一系列的规则定义和实现。通过训练和推理使用同一套特征抽取逻辑，从而保证模型在离线效果的一致性。

特征定义

通用定义

将特征抽取过程抽象出一系列具体规则，算法同学只需要按照规则定义选择合适的特征生成类，完全不需要做特征抽取类的开发。具体可以参考阿里开源推荐框架EasyRec中的特征定义

具体定义

将特征抽取过程通过接口暴露给算法同学，可以对具体模型复用已有的特征抽取类实现，也可以随时开发新的特征抽取类。具体实现方式在深度学习笔记：特征抽取(待完成)中详细介绍

特征抽取加速

每次请求对应具体一个用户，因此对User特征，只需要进行一次抽取。用户行为变化比较快，实时性要求高，一般user特征或者user数据会以服务化方式实时获取。
每次请求对应一系列Item，因此Item特征可以通过并行抽取加速，可以按照Item抽取，也可以按照Field抽取实现。具体实现和区别在深度学习笔记：特征抽取(待完成)中介绍。
item数据一般分全量/批量/实时更新，全量和批量数据走索引方式定期更新，实时数据一般是直接发送到在线内存，定期merge到增量/全亮版本中。

这里提到了索引的存储方式，当然也可以用LRU cache或其他方式实现，在深度学习笔记：特征抽取(待完成)中会继续展开讨论。

Embeding查询

Embedding是对Sparse特征抽取后的Sign值(暂且称之为Sign值吧)，查询Embedding表的过程，一般称之为EmbeddingLookup操作。具体Embedding的原理在深度学习笔记：Embedding查询(待完成)部分再详细介绍。

这里需要知道每个Sparse特征对应一张Embedding表，所有Sparse特征做EmbeddingLookup之后的结果，会和Dense特征拼接(Concat)后作为网络层的输入，拼接的顺序一般是由FeatureConfig中的文件决定，当然要确保训练和推理时使用的FeatureConfig文件是完全一致的。
在这里插入图片描述