一、概念
- ML概念参考文章
二、作用
- 降低风险
- 识别漂移
三、用户
- 行业专家
- 数据科学家
- 数据工程师
- 软件工程师
- DevOps团队
- 模型风险管理者/审计师
- 机器学习架构师
四、流程
1、模型开发
1.1、建立业务目标
- 例如
- 将欺诈交易的占比减小到0.1以下
- 包括
- 变更管理
- 作用
- 为如何构建ML模型提供一些指导
- 透明度将极大的影响算法的选择
- 推动提供解释和预测的需求
- 预测转化为业务层面有价值的决策
- 作用
- 变更管理
1.2、数据源与探索性数据分析
- 寻找相关数据
- 相关数据集?
- 可靠性、准确性如何?
- 不同用户访问数据权限如何?
- 数据组合的属性是什么?特征是什么?
- 数据实时吗?
- 是否需要标记「基础事实」?
- 学习方式如何?
- 无监督?
- 有监督?
- 标注花费资源?
- 平台?
- 模型全周期的数据更新方法是什么?
- 数据代表性?
- KPI衡量?
- 数据治理
- 数据集是否允许商用?
- 是否有条款?
- 是否需要脱敏、加密?
- 不能合法使用的信息?
- 数据是否有代表性?
1.3、特征工程与特征选择
- 数据清洗:清除空值、重复等不合格数据
1.4、训练与评估
- 过程
- 测试多种算法
- 自动生成特征
- 调整特征选择
- 调整算法超参
- 方式
- 集中训练
- 特斯拉案例
- 将来自数百万个模型实例的所有反馈传递到一个中心点
- 运行在50万台汽车中,自动驾驶,完全再训练需要70000个GPU/小时
- 本地训练
- 谷歌案例
- 每一部手机都在本地进行再训练,并集中向谷歌发送改进总结。
- 集中训练