在写这个之前,我觉的有一个概念应该要知道:
数据和特征决定了机器学习的上限,二模型和算法只是逼近这个上限而已
特征工程的本质其实是一项工程活动,目的是最大限度的从原始数据中提取特征用于算法和模型的使用
特征使用的方案:
- 需要那些特征:与业务逻辑相关度高的特征要尽量的取到
- 可用性评估:特征获取难度和存储的方法,特征的覆盖率,准确率等等
特征的处理:
- 特征清洗,清洗掉异常的样本数据,噪声数据等
- 采样:数据不均衡样本的权重问题
预处理:
- 单个特征:归一化,离散化
- 多个特征:降维,特征的选择等
- 衍生变量 :对原始数据 加工,生成有商业化意义的变量
特征监控
- 特征的有效性分析,特征重要性,权重
- 特征监控:监控重要特征,防止特征质量下降影响模型效率