数据分析-机器学习--数据预处理

1.样本不均衡

1.1采样

样本采样有基本的**随机采样并复制样本**与**插值采样**等(链接)

1. 小样本上采样以使样本均衡;
2. 大样本下采样使样本均衡,下采样最简单版本为随机下采样,进阶版本为大数量样本聚类后,根据数量比例筛选,使抽样后的样本分布与原分布相似;但是又引入新的问题:合适的聚类策略的设计;
优势:减少数据量,减少计算负担;

1.2代价函数

代价函数惩罚项,对容易错分的项更大的惩罚权重。

2.数据预处理

  1. 异常值、缺失值处理
  2. 归一化(加快收敛速度:min_max归一化,z-score归一化)
  3. 改变数据的分布(对于连续型的变量的原始分布严重不对称,会干扰模型的拟合。通过数据的转换使得成正态分布,提高模型的拟合能力,比如取 LOG,平方根,指数等)
  4. 离散化、交叉、衍生变量(多项式)
  5. 正则化、降维:增强模型泛化能力,防止过拟合。(为了增强模型的泛化能力,解决过拟合的问题,正则化(惩罚)和降维(减少样本的维度)是两种常用的方法。结构风险最小化,就是除了要最小化经验风险,降低训练的误差,还要降低模型复杂度,正则化一般是在损失函数后增加一个正则化项,对特征进行惩罚,来降低模型复杂度。逻辑回归在损失函数后增加L1、L2 ,增强模型的泛化能力,L1俗称lasso 回归,L2俗称岭回归,在极大似然估计后加上对权重的L1或者L2等罚项后会让信号弱的特征权重很小甚至为0。降维的方式有很多,比如互信息、卡方检验、信息增益、主题等等,在文本的关键词筛选中,还可以基于样本数据集,选择出现频次最多的关键词作为最终的特征集合。)
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值