《机器学习》学习笔记(十四)—无监督学习:线性降维

无监督学习介绍

监督学习、半监督学习、无监督学习

监督学习中的样本 { ( x r , y ^ r ) } r = 1 R \{(x^r,{\hat{y}}^r)\}^R_{r=1} {(xr,y^r)}r=1R 中的 y ^ \hat{y} y^ 是已知的,所以监督学习算法可以在训练集数据中充分使用数据的信息​​
半监督学习的样本 { ( x r , y ^ r ) } r = 1 R , { x u } u = R R + U \{(x^r,{\hat{y}}^r)\}^R_{r=1},\{x^u\}^{R+U}_{u=R} {(xr,y^r)}r=1R,{xu}u=RR+U 中只有R个样本的 y ^ \hat{y} y^ 是已知,U个样本的 y ^ \hat{y} y^ 未知,且通常U远大于R
无监督学习的样 { x u } r = 1 R \{x^u\}^{R}_{r=1} {xu}r=1R 中的 y ^ \hat{y} y^ 都是未知的

无监督学习或聚类有着大量的应用。它用于组织大型计算机集群。第二种应用就是社交网络的分析。所以已知你朋友的信息,比如你经常发 email 的,或是你 Facebook 的朋友、谷歌+圈子的朋友,我们能否自动地给出朋友的分组呢?即每组里的人们彼此都熟识,认识组里的所有人?还有市场分割。许多公司有大型的数据库,存储消费者信息。所以,你能检索这些顾客数据集,自动地发现市场分类,并自动地把顾客划分到不同的细分市场中,你才能自动并更有效地销售或不同的细分市场一起进行销售。这也是无监督学习,因为我们拥有所有的顾客数据,但我们没有提前知道是什么的细分市场,以及分别有哪些我们数据集中的顾客。

我们把无监督学习分为两大类:

  1. 化繁为简:有很多种输入,进行抽象化处理,只有输入没有输出。
  2. 无中生有:随机给一个输入,自动画一张图,只有输出没有输入。

在这里插入图片描述

化繁为简主要通过聚类(Clustering)或者是维数约减(Dimension Reduction)实现,使复杂变简单,化繁为简。

聚类

在这里插入图片描述
K均值聚类

  • 将样本 X = { x 1 , x 2 . . . x N } X=\{x^1,x^2...x^N\} X={x1,x2...xN} 聚合成 K K K 个类
  • 初始化类中心 c i , i = 1 , 2 , . . . K c^i,i=1,2,...K ci,i=1,2,...K
  • 重复下面的操作
    -利用 c i c^i ci 将样本分为 K K K 个类
    -利用分好的 K K K 个类中的样本重新计算每一个类的 c i c^i ci
    在这里插入图片描述
    凝聚层级聚类(HAC)
    假设有5个样本,计算两两之间的相似度,将最相似的两个样本聚合在一起(比如第一个和第二个),再将剩下的4个聚合在一起,以此类推。
    然后再选择一个阈值,据此来确定到底分成多少类,例如蓝色的那条线就将这五个样本分成了三个类。
    在这里插入图片描述

如果说K均值算法的问题是不好却确定分为几类,那么HAC的问题在于不知将分类门槛划在哪一层

分布式表示
直接按照特征的分布来选取有分布的特征。
在这里插入图片描述
Dimension Reduction(降维)
有时候 3D 图像可以降维简化到 2D 图像
在这里插入图片描述
那么我们如何进行降维操作呢,就是需要找一个函数模型。

  1. Feature selection特征选择:比如在左图二维坐标系中,我们发现 X 1 X_1 X1 轴对样本点影响不大,那么就可以把它拿掉。
  2. PCA 主成分分析: 输出 z = W x z=Wx z=Wx 输入,找到这个向量W。 在这里插入图片描述

主成分分析(PCA)—最常用的线性降维方法

通过某种线性投影,将高维的数据映射到低维的空间中表示,即把原先的n个特征用数目更少的m个特征取代,新特征是旧特征的线性组合。并期望在所投影的维度上数据的方差最大,尽量使新的m个特征互不相关。从旧特征到新特征的映射捕获数据中的固有变异性。以此使用较少的数据维度,同时保留住较多的原数据点的特性。

现在举一个从二维数据降到一维的情况, w 1 x w^1x w1x 表示 x x x w w w 向量上的投影,我们希望找到 w w w 使得样本投影在这一向量上的点的分布方差最大,如图,我们选择 Large variance 这一向量。
在这里插入图片描述
如果是高维的情况,我们的思路是一样的,也是找到相互垂直的 w 1 , w 2 . . . w k w^1,w^2...w^k w1,w2...wk,使得 z 1 , z 2 . . . z k z^1,z^2...z^k z1,z2...zk 分布方差最大
在这里插入图片描述

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值