数据挖掘笔记3(特征工程)

一、学习知识点概括

特征工程是建模之前最重要的步骤,主要包括:异常值处理,缺失值处理,特征归一化/标准化,特征构造,特征筛选,降维

二、学习内容

1.异常值处理:

箱线图,3-sigma,box-cox处理有偏分布,长尾截断

2.缺失值处理:

不处理(针对树模型),删除(缺失太多),填充法,分箱法

3.数据分桶,独热编码:

针对数值型数据分桶,针对无大小关系的类别型数据进行独热编码

4.特征构造:

时间特征,地理特征(分箱),各种特征组合等等

5.特征筛选

过滤法:分类问题通常用卡方检验,回归问题用相关性分析,f检验等
包装法:用评估器来评估所有的特征子集,从而筛选出最优的特征子集
嵌入法:先使用某些机器学习的算法和模型进行训练,得到各个特征的权值系数,根据系数从大到小选择特征。

三、学习问题与解答

测试集和训练集一同进行特征选择是否合适?

四、学习思考与总结

特征工程繁琐复杂,且需要背景知识,因此应勤加练习多多总结。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值