数据预处理
Minouio
这个作者很懒,什么都没留下…
展开
-
不平衡数据
目录1. 不平衡数据的定义2. 解决不平衡数据的方法2.1 欠采样2.2 过采样2.3 阈值移动2.4 扩大数据集2.5 尝试对模型进行惩罚2.6 将问题变为异常点检测2.7 特殊的集成的方法2.8 改变评价指标1. 不平衡数据的定义大多数分类学习方法都有一个共同的基本假设,即不同类别的训练样本数目相当。如果不同类别的训练样例数目稍有差别,通常影响不大,若差别很大,会对学习过程造成困扰。例如有998个反例,但正例只有2个,那么学习方法只需返回一个永远将新样本预测为反例的学习器,就能达到98%的精度。如原创 2020-07-14 01:14:01 · 3732 阅读 · 0 评论 -
特征工程——特征预处理
1.特征的标准化和归一化z-score标准化:这是最常见的特征预处理方式,基本所有的线性模型在拟合的时候都会做 z-score标准化。具体的方法是求出样本特征x的均值mean和标准差std,然后用(x-mean)/std来代替原特征。这样特征就变成了均值为0,方差为1了。max-min标准化:也称为离差标准化,预处理后使特征值映射到[0,1]之间。具体的方法是求出样本特征x的最大值max和最小值min,然后用(x-min)/(max-min)来代替原特征。如果我们希望将数据映射到任意一个区间[a,原创 2020-07-08 00:55:26 · 403 阅读 · 0 评论 -
特征工程——特征表达
1. 缺失值处理该特征:连续值:用平均值填补缺失值;中位数填补缺失值。离散值:样本中最频繁出现的类别值,来填充缺失值。2. 特殊类型的特征比如日期时间,比如显示2020/07/07,这样的值一般没办法直接使用。对于时间原始特征,处理方法有很多:使用连续的时间差值法,即计算出所有样本的时间到某一个未来时间之间的数值差距,这样这个差距是UTC的时间差,从而将时间特征转化为连续值。根据时间所在的年,月,日,星期几,小时数,将一个时间特征转化为若干个离散特征,这种方法在分析具有明显时间趋势的问原创 2020-07-07 23:43:19 · 358 阅读 · 0 评论 -
特征工程——特征选择
目录1 特征选择2 子集搜索与评价3 过滤式选择4 包裹式选择5 嵌入式选择6 稀疏表示与字典学习7 压缩感知8 寻找高级特征1 特征选择特征选择是一个重要的数据预处理过程。为什么要特征选择? 1. 维数灾难 ;2. 去除不相关特征往往会降低学习任务的难度。冗余特征:它们所包含的信息能从其他特征中推演出来。冗余特征在很多时候不起作业,去除它们会减轻学习过程的负担。若某个冗余特征恰好对应了完成学习任务所需的中间概念,则该冗余特征是有益的。最简单的方法就是方差筛选。方差越大的特征,那么我们可以认为它是原创 2020-07-07 16:43:00 · 1386 阅读 · 0 评论