1.类别不平衡 2. 删除缺失值的行或者列3. 输出表中某一行 4.转换表的数据5.删除只有一种数值的无用特征列6.查看每一列缺失值的总个数 8.将字符串类型转换为字符型

类别不平衡:假如样本中反例数目多,正例数目少 (西瓜书67页)

  1. 下采样(去除一些反例)
  2. 上采样(增加一些正例)
  3. 阈值移动(再缩放)

删除缺失值的行或者列

df.iloc[ 数字] 可以输出对应的行

iloc是按照index(也就是内部数据的行数)的序值. loc按照index的具体值


转换表的数据 (inplace=True代表更改源文件)


 


删除只有一种数值的无用特征列


 


查看每一列缺失值的总个数



样本不均衡(贷款案例)

  1. 调节正负样本权重参数
  2. 除了逻辑回归、随机森林可以尝试其他分类模型比如支持向量机或者Adaboosting
  3. 利用集成学习,使用多个模型
  4. 重新再处理特征,重新筛选特征
  5. 调整算法模型的参数

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值