广工大数协 阿里云天池 金融风控训练营·Task 03特征工程打卡笔记

一、学习知识点概要

本节主要学习一些特征处理、特征交互、编码、选择的方法,以及如何处理缺失值和异常值

二、学习内容

  • 数据预处理
    • 前面在数据探索性分析的过程中,我们已经得到数据的一些基本统计量的数值,同时也发现了问题,比如缺失值、异常值等,那么我们就要对这些异常的数据进行处理
    • 缺失值填充
      • 将所有缺失值指定为0,并用特定值填充缺失值
    • 时间格式处理
      • 要将issueDate的数据转化为指定的时间格式,并对earliesCreditLine进行预处理
    • 类别特征处理
      • 要将数据分类,并统计其不同类型数据的数量,以便区分和处理
  • 异常值处理
    • 异常值的出现有两种情况:一是偶然出现,此时就可以将该异常值去掉;二是某种特殊现象导致异常值的出现,此时我们不能无视它,要将异常值放入模型中,重新寻找规律
    • 异常值处理方法
      • 3segama原则
        • 又称经验法则,用数学用语表示,其算式如下,其中X为正态分布随机变数的观测值,μ为分布的平均值,而σ为标准差:
      • 箱型图
        • 是用于显示一组数据分散情况资料的统计图。主要包含六个数据节点,将一组数据从大到小排列,分别计算出上边缘,上四分位数Q3,中位数,下四分位数Q1,下边缘,还有一个异常值。
  • 数据分箱
    • 为什么要分箱
      • 数据的特征内的值跨度可能比较大,若直接对数据进行比较会造成大吃小的影响。分箱相当于将数据分成多个模块,这样就能使得数据分析更简便,提高自变量与因变量之间的相关度,使模型更加稳定
    • 固定宽度分箱
      • 将变量的取值范围分为k个等宽的区间,每个区间当作一个分箱。宽度可以自定,但若变量的值跨度较大时,可以将特定常数的幂作为区间进行分箱。
    • 分位数分箱
      • 就像相当于以分位数作为箱子进行数据分箱
  • 特征选择
    • 是指从已有的M个特征中选择N个特征使得系统的特定指标最优化,是从原始特征中选择出一些最有效特征以降低数据集维度的过程,是提高学习算法性能的一个重要手段,也是非常关键的数据预处理步骤。
    • 好的特征选择能够提升模型的性能,更能帮助我们理解数据的特点、底层结构,这对进一步改善模型、算法都有着重要作用。
    • 特征选择可以减少特征数量、降维,使模型泛化能力更强,减少模型评分时间,增强对特征和特征值之间的理解
    • 特征选择的方法
      • Filter(过滤法)
        • 按照发散性或相关性对各个特征进行评分,设定阈值或者待选择特征的个数进行筛选
        • 方差选择法
          • 先要计算各个特征的方差,然后根据阈值,选择方差大于阈值的特征。
        • 相关系数法
          • 即数值ρ,只能用于衡量自变量与因变量线性相关性,取值范围为[-1,1]。Pearson Correlation速度快、易于计算,经常在拿到数据(经过清洗和特征提取之后的)之后第一时间就执行。
        • 卡方检验法
          • 卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小,如果卡方值越大,二者偏差程度越大;反之,二者偏差越小;若两个值完全相等时,卡方值就为0,表明理论值完全符合。
        • 互信息法
          • 互信息描述的是同一个系统下两个子系统的对应部分的信息量; 信息增益描述的是同一个系统下,不同状态的信息量。
          • 互信息法用于衡量自变量与因变量的相关性
      • Wrapper(包装法)
        • 根据目标函数(往往是预测效果评分),每次选择若干特征,或者排除若干特征
        • 递归特征消除法 
          • 给定一个为特征(如线性模型的系数)分配权重的外部估计量,递归特征消除法就是通过递归地考虑越来越小的特征集来选择特征。
      • Embedded(嵌入法)
        • 先使用某些机器学习的模型进行训练,得到各个特征的权值系数,根据系数从大到小选择特征(和过滤法类似)
        • 基于惩罚项的特征选择法
          • 其实质是基于正则的特征选择法。正则化就是机器学习中对原始损失函数引入额外信息,以便防止过拟合和提高模型泛化性能的一类方法的统称。也就是目标函数变成了原始损失函数+额外项 。

三、学习问题与解答

对于分箱的探索较为艰难,与同学讨论后暂时还未找到解决办法,后续会从各种渠道学习相关知识

四、学习思考与总结

特征工程部分真的很困难,理论部分勉强可以弄懂,但是实操部分的练习时间与远远不够。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值