1. 特征归一化
对数值类型的特征做归一化,最终将特征的取值都统一到大致相等的数值区间内。
优点:
- 可将所有特征消除量纲。
- 避免结果倾向于数值差别较大的特征。
常见的方法有:
- 线性函数归一化
- 零均值归一化
适用于:逻辑回归、SVM、神经网络
不适用于:决策树
2. 类别型特征
主要指的非数值型的离散特征,如性别(男、女)。
常见的处理方法:
- 序号编码:处理具有大小关系的数据。如:高、中、低,映射为3、2、1。
- 独热编码(one-hot):处理类别之间无大小关系的离散类别数据。
1) 使用系数向量来节省空间
2) 配合特征选择降低维度 - 二进制编码:两步走先赋值为id,再将id二进制化。(相较于one-hot节省空间)
3. 高维组合特征的处理
为了提高复杂关系的拟合能力,通常将一阶离散特征两两组合,构成高阶特征。
如:
但是对于id类的特征,优于其数量十分庞大,不适用
4.组合特征
特征的组合,如果是简单的两两组合,会产生参数过多、过拟合的问题。并且并不是所有的特征都是有意义的。
所以我们可以借助决策树的方法,来进行特征的选择与组合。
5. 文本表示模型
文本的表示是NLP中的一个基础性的工作与技术,通常采用的方法有如下几个:
- 词袋模型
- TF-IDF值
- Word2Vec
- LDA
在抽取高层的语义特征时,采用了CNN,比起DNN和RNN的优势在于:
- 参数量少
- 训练速度快
- 降低了过拟合风险. .
6. Word2Vec
其有两种模式:CBOW和Skip-gram
同时每种模式下都有两种训练技巧:层序softmax和负采样
7. 图像数据不足时的处理方法
从模型角度入手:
- 简化模型
- 增加惩罚项
- 集成学习
- Dropout
从数据角度入手:
- 做数据的旋转、平移等操作
- 对图像增加噪声
- 改变图像的亮度、清晰度等
- GAN