数据挖掘-特征探索

1、基本特征
1.1特征量
对特征进行一个全面的认知
在这里插入图片描述
1.2特征
查看具体的特征,可以用来判断特征是否获取完全,训练集和测试集是否特征相同
在这里插入图片描述
1.2数据简况
数据概况更深层度了解字段
在这里插入图片描述
在这里插入图片描述
1.3偏度和蜂度
理论上算法可以拟合所以的分布,但是实际训练很难做到,算法只能对一些情况下效果很好
特征以及训练的预测字段最好符合正态分布,方便模型更好的收敛
在这里插入图片描述
1.4 缺失情况
确定缺失的字段以及数量,避免对模型造成影响
在这里插入图片描述
1.4各分类占比
确定各字段的分类,方便后续对异常值做处理,比如年龄>150
在这里插入图片描述
1.5特征分布
特征分布主要针对偏离数据聚合中心的异常值,直观的方式确定数据是要删除或者做归一化处理
箱线图是比较好的分布可视化,通过箱线图可以看出异常值的量,判断选择采取什么方式进行处理。
在这里插入图片描述
1.6相关性图
相关性图主要为了特征的选取,找出相关性较强的特征,考虑是否要减掉部分特征,降低模型训练的压力
散点图
在这里插入图片描述
小提琴图
在这里插入图片描述
两两热力图
![在这里插入图片描述](https://img-blog.csdnimg.cn/20200620161235162.png
在这里插入图片描述
注:由于部分模型的特征前提是具有独立性,因此可以将相关性较强的部分特征只取一个即可。
1.7、数据报告
数据报告不仅可视化,而且会对其中的特征进行建议。
在这里插入图片描述
3、特征处理
在这里插入图片描述
3.1特征选择
1)过滤式
将对预测结果无异议的特征去掉,避免影响训练效果
在这里插入图片描述
2)包裹式
缺点:特征太大,训练太慢
验证方式:用边际效益计算
在这里插入图片描述
3)嵌入式
Lasso 回归和决策树可以完成嵌入式特征选择 --大部分情况下都是用嵌入式做特征筛选
3.2先验知识
例子
在这里插入图片描述
3.3特征增加
与预测字段的结合,根据预测字段分类,获取特征的低阶值
在这里插入图片描述
3.4特征光滑
分桶、增加鲁棒性
在这里插入图片描述
3.5特征正态化
取log:np.log()
3.6归一化
3.7匿名特征处理
匿名特征,这导致我们并不清楚特征相互直接的关联性,这时我们就只有单纯基于特征进行处 理,比如装箱,groupby,agg 等这样一些操作进行一些特征统计,此外还可以对特征进行进一步的 log,exp 等 变换,或者对多个特征进行四则运算(如上面我们算出的使用时长),多项式组合等然后进行筛选。由于特性的 匿名性其实限制了很多对于特征的处理,当然有些时候用 NN 去提取一些特征也会达到意想不到的良好效果。

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值