特征

在这里插入图片描述
特征工程(7中常用)
https://www.cnblogs.com/peizhe123/p/7412364.html

  1. 时间戳处理 import data
  2. 分解类别属性 one-hot dummy
  3. 分箱/分区 (划分区间段,结合领域知识基础) ------分箱------
  4. 交叉特征 (将两个多个特征组合)
  5. 特征选择(算法 选出原始特征子集,修剪特征可以减少噪声、冗余。评分法来排名选择)
  6. 特征缩放 (某些特征跨度值更多)
  7. 特征提取

预处理

  1. 数据清洗
  2. 数据规范化处理
  3. 特征衍生与提取

特征选择

  1. 特征过滤
  2. wrapper
  3. enbedded

填充 :

0 pandas data.fillna(0)
均值、中位数、频数 data.fillna(data.mean()\median()) 结果粗糙
最大最小
序号相邻 data.fillna(method=‘bfill’)
相似性(k最近邻)
线性回归填充 共线性问题

不赞成填充,设置哑变量(dummy val)
https://www.jianshu.com/p/5d883a293730
这边参考了两个模型的设计思路,一个是bagging算法的随机抽取避免过拟合,另一个是Tomek+Somte的填充方法

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值