广工大数协阿里云天池金融风控训练营·Task 03特征工程打卡笔记

最新推荐文章于 2024-07-13 21:34:41 发布

hikarikei

最新推荐文章于 2024-07-13 21:34:41 发布

阅读量117

点赞数

文章标签： python 数据分析

本文链接：https://blog.csdn.net/hikarikei/article/details/116242411

版权

一、学习知识点概要

本节主要学习一些特征处理、特征交互、编码、选择的方法，以及如何处理缺失值和异常值

二、学习内容

数据预处理
- 前面在数据探索性分析的过程中，我们已经得到数据的一些基本统计量的数值，同时也发现了问题，比如缺失值、异常值等，那么我们就要对这些异常的数据进行处理
- 缺失值填充
  - 将所有缺失值指定为0，并用特定值填充缺失值
- 时间格式处理
  - 要将issueDate的数据转化为指定的时间格式，并对earliesCreditLine进行预处理
- 类别特征处理
  - 要将数据分类，并统计其不同类型数据的数量，以便区分和处理
异常值处理
- 异常值的出现有两种情况：一是偶然出现，此时就可以将该异常值去掉；二是某种特殊现象导致异常值的出现，此时我们不能无视它，要将异常值放入模型中，重新寻找规律
- 异常值处理方法
  - 3segama原则
    - 又称经验法则，用数学用语表示，其算式如下，其中X为正态分布随机变数的观测值，μ为分布的平均值，而σ为标准差：
  - 箱型图
    - 是用于显示一组数据分散情况资料的统计图。主要包含六个数据节点，将一组数据从大到小排列，分别计算出上边缘，上四分位数Q3，中位数，下四分位数Q1，下边缘，还有一个异常值。
数据分箱
- 为什么要分箱
  - 数据的特征内的值跨度可能比较大，若直接对数据进行比较会造成大吃小的影响。分箱相当于将数据分成多个模块，这样就能使得数据分析更简便，提高自变量与因变量之间的相关度，使模型更加稳定
- 固定宽度分箱
  - 将变量的取值范围分为k个等宽的区间，每个区间当作一个分箱。宽度可以自定，但若变量的值跨度较大时，可以将特定常数的幂作为区间进行分箱。
- 分位数分箱
  - 就像相当于以分位数作为箱子进行数据分箱
特征选择
- 是指从已有的M个特征中选择N个特征使得系统的特定指标最优化，是从原始特征中选择出一些最有效特征以降低数据集维度的过程,是提高学习算法性能的一个重要手段,也是非常关键的数据预处理步骤。
- 好的特征选择能够提升模型的性能，更能帮助我们理解数据的特点、底层结构，这对进一步改善模型、算法都有着重要作用。
- 特征选择可以减少特征数量、降维，使模型泛化能力更强，减少模型评分时间，增强对特征和特征值之间的理解
- 特征选择的方法
  - Filter（过滤法）
    - 按照发散性或相关性对各个特征进行评分，设定阈值或者待选择特征的个数进行筛选
    - 方差选择法
      - 先要计算各个特征的方差，然后根据阈值，选择方差大于阈值的特征。
    - 相关系数法
      - 即数值ρ，只能用于衡量自变量与因变量线性相关性，取值范围为[-1，1]。Pearson Correlation速度快、易于计算，经常在拿到数据(经过清洗和特征提取之后的)之后第一时间就执行。
    - 卡方检验法
      - 卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度，实际观测值与理论推断值之间的偏离程度就决定卡方值的大小，如果卡方值越大，二者偏差程度越大；反之，二者偏差越小；若两个值完全相等时，卡方值就为0，表明理论值完全符合。
    - 互信息法
      - 互信息描述的是同一个系统下两个子系统的对应部分的信息量；信息增益描述的是同一个系统下，不同状态的信息量。
      - 互信息法用于衡量自变量与因变量的相关性
  - Wrapper（包装法）
    - 根据目标函数（往往是预测效果评分），每次选择若干特征，或者排除若干特征
    - 递归特征消除法
      - 给定一个为特征(如线性模型的系数)分配权重的外部估计量，递归特征消除法就是通过递归地考虑越来越小的特征集来选择特征。
  - Embedded（嵌入法）
    - 先使用某些机器学习的模型进行训练，得到各个特征的权值系数，根据系数从大到小选择特征（和过滤法类似）
    - 基于惩罚项的特征选择法
      - 其实质是基于正则的特征选择法。正则化就是机器学习中对原始损失函数引入额外信息，以便防止过拟合和提高模型泛化性能的一类方法的统称。也就是目标函数变成了原始损失函数+额外项。

三、学习问题与解答

对于分箱的探索较为艰难，与同学讨论后暂时还未找到解决办法，后续会从各种渠道学习相关知识

四、学习思考与总结

特征工程部分真的很困难，理论部分勉强可以弄懂，但是实操部分的练习时间与远远不够。

hikarikei

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
广工大数协阿里云天池金融风控训练营·Task 03特征工程打卡笔记

一、学习知识点概要本节主要学习一些特征处理、特征交互、编码、选择的方法，以及如何处理缺失值和异常值二、学习内容数据预处理前面在数据探索性分析的过程中，我们已经得到数据的一些基本统计量的数值，同时也发现了问题，比如缺失值、异常值等，那么我们就要对这些异常的数据进行处理缺失值填充将所有缺失值指定为0，并用特定值填充缺失值时间格式处理要将issueDate的数据转化为指定的时间格式，并对earliesCreditLine进行预处理类别特征处理要将数据
复制链接

扫一扫