一、数据探索
1、影响数据的使用情况
- 数据不完整
- 数据不准确
- 数据不一致
- ...
2、对数据集检测
- 每列的域是什么
- 是否有缺少?
- 是否有明显错误
- 是否有异常离群值
二、特征工程与特征选择
1、特征
1.1、概念
- 数据呈现给模型的方式
1.2、作用
- 告知模型本身不能推断的东西
1.3、类型
- 衍生特征
- 概念
- 从现有信息中推断新信息
- 案例
- 这个日期是星期几
- 概念
- 增添特征
- 概念
- 添加新的外部信息
- 案例
- 这一天是公众假期吗
- 概念
- 编码特征
- 概念
- 以不同的方式显示相同的信息
- 案例
- 星期几或工作日与周末
- 概念
- 组合特征
- 概念
- 将要素链接一起
- 案例
- 积压的大小可能跟需要根据其中不同项目的复杂性进行加权
- 概念
2、技术
- 影响编码
- 独热编码
- 迁移学习
- 利用解决一个问题获得的信息,来解决另一个问题的技术
- 在深度学习应用较多,训练模型所需资源巨大
3、影响MLOps策略
3.1、添加更多的特征
- 优点
- 可能会生成更准确的模型
- 缺点
- 计算成本越来越高
- 需要更多输入和更多维护
- 不稳定
- 引起隐私问题
- ...
3.2、自动特征选择
- 根据与目标变量的相关性,或通过子集小范围验证,选择特征相对最强的预测指标,忽略不太可能产生太大影响的特征
4、特征存储
4.1、别名
- 特征工厂
4.2、概念
- 与业务实体相关联的不同特征的存储库
4.3、结合
- 离线部分
- 较慢,可能更强大