数据采集、数据格式化、数据清洗、数据采样
数据格式化:确定数据的存储格式
数据清洗:去掉一些脏数据,补充缺省值。
数据采样:样本的正负样本比例是不均衡的,大多数模型对样本的正负比例是敏感的(例如LR),随机采样和分层采样
正负样本不均衡时的处理情况:
正样本》》负样本且量都很大,如5亿个正样本 2万负样本。则采用下采样。从5亿正样本中抽取1/25的量,能达到1:1的效果
正样本》》负样本 量都不大:
1.采集更多的数据,拉大时间窗口,可以多采集几天/几周的数据
2.下采样
3.修改损失函数(兼顾负样本)
关于上采样和下采样:
小图像(或称为下采样(subsampled)或降采样(downsampled))的主要目的有两个:1、使得图像符合显示区域的大小;2、生成对应图像的缩略图。
放大图像(或称为上采样(upsampling)或图像插值(interpolating))的主要目的是放大原图像,从而可以显示在更高分辨率的显示设备上。
对图像的缩放操作并不能带来更多关于该图像的信息, 因此图像的质量将不可避免地受到影响。然而,确实有一些缩放方法能够增加图像的信息,从而使得缩放后的图像质量超过原图质量的。
下采样原理:对于一副图像I尺寸为M*N,对其进行s倍下采样,即得到(M/s)*(N/s)尺寸的分辨率图像,当然,s应该是M和N的公约数才可以,如果考虑是矩阵形式的图像,就是把原始图像s*s窗口内的图像变成一个像素,这个像素点的值就是窗口内所有像素的均值。
上采样原理:图像放大几乎都是采用内插值方法,即在原有图像像素的基础上在像素点之间采用合适的插值算法插入新的元素。
插值算法还包括了传统插值,基于边缘图像的插值,还有基于区域的图像插值。
特征处理:常见的以下类型的特征:
数值型。类别型。实践类,文本类。统计类。组合特征。
数值型特征处理方式:
统计值 :max min std mean
离散化、hash分桶 数值型转换成类别值等等。
幅度调整/归一化 :在数据灌入模型之前数据冗余:部分特征相关度太高,消耗计算性能
噪声:部分特征对预测有负面影响
特征选择:踢出原本特征中和预测结果关系不大的特征。
降维:做特征的计算组合构成新的特征。
特征选择的方式:
过滤型:直接考虑单个特征对结果值之间的影响,