机器学习第十三~十五章(无监督学习)

聚类算法

k-means(k均值算法)

   先计算样本到中心的距离,然后移动中心。

 优化目标

随机初始化

  为了避免局部最优,可以多次选择中心,进行均值算法

 

选取聚类数量

        方法一:肘部法则

     方法二: 根据自己目的选择。


数据压缩

  降维第一个目的:数据压缩

       降维第二个目的:可视化

PCA(主成分分析)(一个降维算法)

   找一个平面或者一条直线来最小化投影误差的平方

首先要对数据均值标准化和特征缩放

压缩重现

应用PCA建议

          正则化防止过拟合,PCA不是防止过拟合的好方法


第十五章

讨论异常检测问题

高斯分布

 异常检测算法

 

开发异常检测系统

 

 

异常检测VS监督学习

如果你有相同数量级的正样本和负样本,就使用监督学习;相反就使用异常检测。

选择要使用的功能

应该怎样选取异常检测的特征

        误差分析过程:就是分析算法没有检测出来样本的特征,找出为什么没有检测出来,从而找出新的特征。

多变量的高斯分布

 改变均值和方差对图形有一定影响。

 

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值