- 数据标准化
数据各个特征变量的量纲差异很大,可以使用数据标准化消除不同分量量纲差异的影响,加速模型收敛的效率。常用的方法有:
① min-max 标准化:
将数值范围缩放到(0,1),但没有改变数据分布。max为样本最大值,min为样本最小值。
② z-score 标准化:
将数值范围缩放到0附近, 经过处理的数据符合标准正态分布。u是平均值,σ是标准差。
2.3.2 特征提取
- 特征表示
数据需要转换为计算机能够处理的数值形式。如果数据是图片数据需要转换为RGB三维矩阵的表示。
![](https://img-blog.csdnimg.cn/62fd17c51892422b81cfc7eb335e9496.png?x-oss-process=image/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA56iL5bqP5ZGY5a2U5LmZ5bex,size_19,color_FFFFFF,t_70,g_se,x_1
字符类的数据可以用多维数组表示,有Onehot独热编码表示、word2vetor分布式表示及bert动态编码等;
- 特征衍生
基础特征对样本信息的表述有限,可通过特征衍生出新含义的特征进行