聚类算法
k-means(k均值算法)
先计算样本到中心的距离,然后移动中心。
优化目标
随机初始化
为了避免局部最优,可以多次选择中心,进行均值算法
选取聚类数量
方法一:肘部法则
方法二: 根据自己目的选择。
数据压缩
降维第一个目的:数据压缩
降维第二个目的:可视化
PCA(主成分分析)(一个降维算法)
找一个平面或者一条直线来最小化投影误差的平方
首先要对数据均值标准化和特征缩放
压缩重现
应用PCA建议
正则化防止过拟合,PCA不是防止过拟合的好方法
第十五章
讨论异常检测问题
高斯分布
异常检测算法
开发异常检测系统
异常检测VS监督学习
如果你有相同数量级的正样本和负样本,就使用监督学习;相反就使用异常检测。
选择要使用的功能
应该怎样选取异常检测的特征
误差分析过程:就是分析算法没有检测出来样本的特征,找出为什么没有检测出来,从而找出新的特征。
多变量的高斯分布
改变均值和方差对图形有一定影响。