数据分析-机器学习--数据预处理

最新推荐文章于 2024-05-10 09:22:41 发布

XiaoxinMiiii

最新推荐文章于 2024-05-10 09:22:41 发布

阅读量312

点赞数

分类专栏：数据分析

3 篇文章 0 订阅

订阅专栏

1.样本不均衡

样本采样有基本的**随机采样并复制样本**与**插值采样**等（链接）

1. 小样本上采样以使样本均衡；
2. 大样本下采样使样本均衡，下采样最简单版本为随机下采样，进阶版本为大数量样本聚类后，根据数量比例筛选，使抽样后的样本分布与原分布相似；但是又引入新的问题：合适的聚类策略的设计；
优势：减少数据量，减少计算负担；

代价函数惩罚项，对容易错分的项更大的惩罚权重。

异常值、缺失值处理
归一化（加快收敛速度：min_max归一化，z-score归一化）
改变数据的分布（对于连续型的变量的原始分布严重不对称，会干扰模型的拟合。通过数据的转换使得成正态分布，提高模型的拟合能力，比如取 LOG，平方根，指数等）
离散化、交叉、衍生变量（多项式）
正则化、降维：增强模型泛化能力，防止过拟合。（为了增强模型的泛化能力，解决过拟合的问题，正则化(惩罚)和降维(减少样本的维度)是两种常用的方法。结构风险最小化，就是除了要最小化经验风险，降低训练的误差，还要降低模型复杂度，正则化一般是在损失函数后增加一个正则化项，对特征进行惩罚，来降低模型复杂度。逻辑回归在损失函数后增加L1、L2 ，增强模型的泛化能力，L1俗称lasso 回归，L2俗称岭回归，在极大似然估计后加上对权重的L1或者L2等罚项后会让信号弱的特征权重很小甚至为0。降维的方式有很多，比如互信息、卡方检验、信息增益、主题等等，在文本的关键词筛选中，还可以基于样本数据集，选择出现频次最多的关键词作为最终的特征集合。）

关注