特征提取与特征选择基础知识总结
文本:
特征提取方法:TF-IDF(典型应用:文档检索),Word2Vec(典型应用:短文本分析)
语音:
特征提取方法:MFCC,语音识别、声纹识别。
图像:
特征提取方法:SIFT(scale invariant feature transform)尺度不变特征变换,(典型应用:图像匹配)
视觉词袋:(典型应用:图像分类)
CNN:图像分类、目标检测。
步骤:
高斯尺度空间构建
高斯差分尺度空间构建
极值点检测
特征点精细化定位
特征点方向计算
特征描述子生成
SIFT性质:
旋转不变性:计算特征点描述子的局部图像根据计算的主方向进行了旋转对齐。
对光照变化的稳定性:SIFT描述子的本质是梯度直方图,对于灰度的线性变换是不变的,最后一步截断归一化也一定程度上提升了对光照变化的稳定性。
区分能力:采用分块统计策略,相对整个区域的统一描述,区分能力更强。
对视角变化/局部位移的稳定性:SIFT的特征描述子是直方图,所以对区域的局部扰动比较稳定。
线性特征变换:通过线性变换关系将原特征空间变换到新的空间,通常维度比原空间更低(降维处理)。PCA(主成分分析),LDA(线性判别变换)。
无监督的PCA方法:寻找数据方差最大的投影方向,尽可能保持原始数据空间的差异信息。
有监督的LDA方法:寻找Fisher分类准则最大的投影方向,最大化变换后特征的分类性能。
非线性特征变换:通过非线性关系(一般是核方法kernel)将原特征空间变换到新的空间,通常性能更好。KPCA,KLDA。
特征选择方法分类:
过滤式特征选择:先对数据集进行特征选择,然后再通过训练学习器,特征选择过程与后续学习器无直接联系。
包裹式特征选择:以分类器性能作为特征选择的准则,为给定分类器“量身定制”特征子集。
嵌入式特征选择:同时进行分类器学习和特征选择,在训练分类器同时自动进行特征选择。