机器学习基本概念
1. 特征工程
- 特征工程师对原始数据进行一系列的工程处理,作为输入供算法和模型使用。
举例:想让机器识别这个图片是不是苹果,可以选择 形状,颜色分布,边等作为特征
- 从本质上讲,特征工程是一个表示和展现数据的过程。
- 实际中,特征工程旨在去除原始数据中的杂质和冗余,设计更高效的特征以刻画求解问题与预测模型之间的关系
1.1 特征工程的目的
-
去掉数据中的杂质
-
构造更高级的高效的特征来描述数据。
1.2 怎么做特征工程?
特征工程一般包括三个子模块:特征构建->特征提取->特征选择
1.2.1 特征构建
根据原始数据构建新的特征,需要找出一些具有物理意义的特征。
1.2.2 特征提取
自动地构建新的特征,将原始特征转换为一组具有明显物理意义或者统计意义或核的特征。例如 Gabor、几何特征、纹理等。
1.2.2.1特征提取常用方法
PCA (Principal component analysis,主成分分析)
ICA (Independent component analysis,独立成分分析)