模型线上线下一致性问题

最新推荐文章于 2023-10-31 10:15:00 发布

Weiyaner

最新推荐文章于 2023-10-31 10:15:00 发布

阅读量3.1k

点赞数

分类专栏：深度学习机器学习与数据挖掘文章标签：机器学习人工智能算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42327752/article/details/126769163

版权

线下可能很好，但是线上表现并不如意，对于这种线上线下一致性问题，是机器学习模型在上线之后经常遇到的问题。

围绕着这个问题，从多个角度来考虑该问题。

1 特征维度

数据作为模型的输入，决定着模型的上限。一般一致性问题在数据的表现为：

1.1 线上线下的处理方式不同

针对同样的特征输入，离线和在线的处理方式不同，如input_schema配置没对齐、特征抽取不一致等，这是最容易出现的情况。

解决方法

一般是离线和在线共用同一套特征抽取框架，同时每次模型上线前先生成一批待校验的一致性样本，对比每条样本在离线打分和在线打分的gap，小于一定阈值（如1e-6）算一致性通过

1.2 特征更新延迟性

user侧和item侧的特征一般以正排方式储存在key-value载体中，根据特征类型的不同更新时效性也可以分为：

长期更新：user的年龄、性别、婚否、是否有孩子等长期比较稳定的用户画像特征
天级更新：user最近7天/14天在该appid上的pv个数、click个数、conv个数、ctr、cvr等按天统计的中长期兴趣特征
小时级更新：user的精准兴趣、广泛兴趣、app安装列表等按小时统计的近实时特征
实时更新：user最近互动过的adid、appid、industry_id，item实时反馈特征，session序列特征

对于天级更新、小时级更新和实时更新这些对时效性比较敏感的特征，如果出现了更新延

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Weiyaner 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。