问题一:机器学习中什么是维度?
- 图像中每个像素点(每一个特征点)就是一个维度
- 假如用矩阵表示对象,对象的属性就是他的维度
- 数组中ndim的返回就是维度
问题二:在哪里用到维度?
- 特征维度过大,可能会导致过拟合时
- 某些样本数据不足的情况(缺失值很多)
- 特征间的相关性比较大时
问题三:解决过拟合的方法都是如何降维的?
- 正则化:没有减少特征的数量但是减少了特征的数量级(计算的值变小了)
- dropout:随机减少规定比例的特征
- early stopping:减少计算次数
在彩色图像/RGB图像中,图像是一个三维矩阵,如4003003,其中400表示列数,300表述行数,3代表三个分量,也就是R,G,B。
降维中维是指特征,几维就是几个特征
PCA的主要适用场景:
(1)非监督式的数据集
它是一种非监督式的降维方法,因此适用于不带有标签的数据集,对于带有标签的可以采用LDA
(2)根据方差自主控制特征数量
最大的主成分的数量会小于或等于特征的数量,即,PCA可以输出全部的特征,具体取决于选择特征中解释的方差比例
(3)更少的正则化处理
选择较多的主成分将导致更少的平滑,因为能保留很多特征,减少正则化
(4)数据量较大的数据集
数据量大指数据记录多和维度多两种情况,PCA对大型数据集的处理效率高
(5)数据分布是位于相同平面上,数据中存在线性结构