1. 无监督学习的特点
监督学习输入数据中有标签或者目标值,但是在实际生活中很多数据是没有标签或者目标值的或者标签的代价很高
对没有标签的数据涉及机器学习中的无监督学习,通过提取一般规律,或者通过数学处理系统地减少或者根据相似性组织数据,对应无监督学习的关联学习,降维,聚类
2. PCA主成分分析
2.1 PCA简介
主成分分析是一种统计方法,通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换的变量称为主成分,是一种数据降维技术,可用数据预处理。如我们获取的原始数据维度很大,比如1000个特征,在1000个特征中包含了很多的信息或者噪声,真正有用的特征可能只有50个或者更少,那么我们可以利用PCA算法去除无用的噪声,节约计算源,还能保持模型性能变化不大。
2.2 PCA思想
n维空间中有m个样本点,假设m特别大,需要将这些点压缩到k维空间之内,k<n,使信息的损失最小
1、对原始数据进行标准化处理
2、计算协方差矩阵及其特征值及特征向量
3、计算前k个最大的特征向量,k小于原数据维度
4、通过前k个特征向量组成新的特征空间
5、通过W将原数据转换到新的k为特征子空间
3. k-means聚类
希望通过算法把一组未知类别的样本划分为若干类别
3. 1 基本思想
(1):适当选择k个类的初始中心
(2):在第i次迭代中对任意一个样本求其到k个中心的中心的距离,将该样本归到距离最短的中心所在的类
(3):利用均值等方法更新中心所在的位置
(4):对于所有k个聚类中心,如果在2,3步骤之后k个聚类中心的位置不变结束迭代
最终结果是同一簇中对象相似度极高,不同类簇总相似度极低
对于大数据的聚类算法,采用sklearn提供的mini batch k-means采用少批量而不是所有所有数据进行训练,可以提高效率