一、学习知识点概要
本节主要学习一些特征处理、特征交互、编码、选择的方法,以及如何处理缺失值和异常值
二、学习内容
- 数据预处理
- 前面在数据探索性分析的过程中,我们已经得到数据的一些基本统计量的数值,同时也发现了问题,比如缺失值、异常值等,那么我们就要对这些异常的数据进行处理
- 缺失值填充
- 将所有缺失值指定为0,并用特定值填充缺失值
- 时间格式处理
- 要将issueDate的数据转化为指定的时间格式,并对earliesCreditLine进行预处理
- 类别特征处理
- 要将数据分类,并统计其不同类型数据的数量,以便区分和处理
- 异常值处理
- 异常值的出现有两种情况:一是偶然出现,此时就可以将该异常值去掉;二是某种特殊现象导致异常值的出现,此时我们不能无视它,要将异常值放入模型中,重新寻找规律
- 异常值处理方法
- 3segama原则
- 又称经验法则,用数学用语表示,其算式如下,其中X为正态分布随机变数的观测值,μ为分布的平均值,而σ为标准差:
- 箱型图
- 是用于显示一组数据分散情况资料的统计图。主要包含六个数据节点,将一组数据从大到小排列,分别计算出上边缘,上四分位数Q3,中位数,下四分位数Q1,下边缘,还有一个异常值。
- 3segama原则
- 数据分箱
- 为什么要分箱
- 数据的特征内的值跨度可能比较大,若直接对数据进行比较会造成大吃小的影响。分箱相当于将数据分成多个模块,这样就能使得数据分析更简便,提高自变量与因变量之间的相关度,使模型更加稳定
- 固定宽度分箱
- 将变量的取值范围分为k个等宽的区间,每个区间当作一个分箱。宽度可以自定,但若变量的值跨度较大时,可以将特定常数的幂作为区间进行分箱。
- 分位数分箱
- 就像相当于以分位数作为箱子进行数据分箱
- 为什么要分箱
- 特征选择
- 是指从已有的M个特征中选择N个特征使得系统的特定指标最优化,是从原始特征中选择出一些最有效特征以降低数据集维度的过程,是提高学习算法性能的一个重要手段,也是非常关键的数据预处理步骤。
- 好的特征选择能够提升模型的性能,更能帮助我们理解数据的特点、底层结构,这对进一步改善模型、算法都有着重要作用。
- 特征选择可以减少特征数量、降维,使模型泛化能力更强,减少模型评分时间,增强对特征和特征值之间的理解
- 特征选择的方法
- Filter(过滤法)
- 按照发散性或相关性对各个特征进行评分,设定阈值或者待选择特征的个数进行筛选
- 方差选择法
- 先要计算各个特征的方差,然后根据阈值,选择方差大于阈值的特征。
- 相关系数法
- 即数值ρ,只能用于衡量自变量与因变量线性相关性,取值范围为[-1,1]。Pearson Correlation速度快、易于计算,经常在拿到数据(经过清洗和特征提取之后的)之后第一时间就执行。
- 卡方检验法
- 卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小,如果卡方值越大,二者偏差程度越大;反之,二者偏差越小;若两个值完全相等时,卡方值就为0,表明理论值完全符合。
- 互信息法
- 互信息描述的是同一个系统下两个子系统的对应部分的信息量; 信息增益描述的是同一个系统下,不同状态的信息量。
- 互信息法用于衡量自变量与因变量的相关性
- Wrapper(包装法)
- 根据目标函数(往往是预测效果评分),每次选择若干特征,或者排除若干特征
- 递归特征消除法
- 给定一个为特征(如线性模型的系数)分配权重的外部估计量,递归特征消除法就是通过递归地考虑越来越小的特征集来选择特征。
- Embedded(嵌入法)
- 先使用某些机器学习的模型进行训练,得到各个特征的权值系数,根据系数从大到小选择特征(和过滤法类似)
- 基于惩罚项的特征选择法
- 其实质是基于正则的特征选择法。正则化就是机器学习中对原始损失函数引入额外信息,以便防止过拟合和提高模型泛化性能的一类方法的统称。也就是目标函数变成了原始损失函数+额外项 。
- Filter(过滤法)
三、学习问题与解答
对于分箱的探索较为艰难,与同学讨论后暂时还未找到解决办法,后续会从各种渠道学习相关知识
四、学习思考与总结
特征工程部分真的很困难,理论部分勉强可以弄懂,但是实操部分的练习时间与远远不够。