Unsupervised Machine Learning 无监督学习方法简述 及 深度学习(Deep Learning)、强化学习(Reinforcement Learning)简介
(I)Unsupervised Machine Learning 无监督学习
无监督学习最大的特点就是没有label,最典型的方法就是聚类(Clustering),另外还有主成分分析法(Prcincipal Components Analysis,PCA)。
主成分分析法(Prcincipal Components Analysis,PCA)
主成分分析法(Prcincipal Components Analysis,PCA)主要是用来给模型降维的,之前我们提到模型中features如果太多,会导致模型出现overfitting(过度拟合)等一系列问题。
那么我们不如挑一挑,把几个有关系的features(X1,X2,X3 | X4,X5 | X6,X7,X8,X9)组一起,定义成一个新的features组合(Z1 | Z2 | Z3),这个组合也叫composite variable,这样就实现了降维的效果。
![8ea585f1bba09b35b0e50da6c3f26103.png](https://i-blog.csdnimg.cn/blog_migrate/4a938a73711e6ea857933c3fee1fc50b.jpeg)
上图左边一大堆X,经过主成分分析后,变成了右图中仅剩四个feature组(composite variable),组内的X们都是有很强统计相关关系的。
PCA不仅仅是给你做一个简单的聚类降维,还会通过特征向量(eigenvectors)和特征值(eigenvalue)将这几个composite variable根据对Y的解释力度大小进行排序,挑选,剔除。
对Y的解释力度大小(proportion of total variance in initial data)就是每个composite variable的特征值,特征向量还为其增添了方向。
PCA根据根据特征值将composite variable排序,解释力度最大的定义为th