MLOps工具链实战笔记_02

本文深入探讨了MLOps在数据探索、特征工程中的实践,包括数据检测、特征的作用与类型、自动特征选择、实验过程、模型评估与比较。强调了特征存储的重要性、版本管理和再现性、生产环境的准备以及模型风险评估,为机器学习的质量保证和安全提供了指导。
摘要由CSDN通过智能技术生成

一、数据探索

1、影响数据的使用情况

  • 数据不完整
  • 数据不准确
  • 数据不一致
  • ...

2、对数据集检测

  • 每列的域是什么
  • 是否有缺少?
  • 是否有明显错误
  • 是否有异常离群值

二、特征工程与特征选择

1、特征

1.1、概念

  • 数据呈现给模型的方式

1.2、作用

  • 告知模型本身不能推断的东西

1.3、类型

  • 衍生特征
    • 概念
      • 从现有信息中推断新信息
    • 案例
      • 这个日期是星期几
  • 增添特征
    • 概念
      • 添加新的外部信息
    • 案例
      • 这一天是公众假期吗
  • 编码特征
    • 概念
      • 以不同的方式显示相同的信息
    • 案例
      • 星期几或工作日与周末
  • 组合特征
    • 概念
      • 将要素链接一起
    • 案例
      • 积压的大小可能跟需要根据其中不同项目的复杂性进行加权

2、技术

  • 影响编码
  • 独热编码
  • 迁移学习
    • 利用解决一个问题获得的信息,来解决另一个问题的技术
    • 在深度学习应用较多,训练模型所需资源巨大

3、影响MLOps策略

3.1、添加更多的特征

  • 优点
    • 可能会生成更准确的模型
  • 缺点
    • 计算成本越来越高
    • 需要更多输入和更多维护
    • 不稳定
    • 引起隐私问题
    • ...

3.2、自动特征选择

  • 根据与目标变量的相关性,或通过子集小范围验证,选择特征相对最强的预测指标,忽略不太可能产生太大影响的特征

4、特征存储

4.1、别名

  • 特征工厂

4.2、概念

  • 与业务实体相关联的不同特征的存储库

4.3、结合

  • 离线部分
    • 较慢,可能更强大
    <
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

AI酱的读书笔记

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值