神经网络(九)无监督学习

        有监督学习:建立映射关系 f:x->y

        无监督学习:从无标签的数据中学习有用的模式

一、聚类

        将样本中相似的样本分配给相同的类/簇

        样本间距/相似性:L1、L2距离;余弦距离;相关系数;汉明距离

        常见的聚类任务:图像分割;文本聚类;社交网络分析

        ①类/簇:可以理解为一组相似的样本,但是并无严格定义

        ②类内间距:样本间最大距离:avg(C)=\frac{2}{|C|(|C|-1)}\sum_{1\leq i< j\leq |C|}d_{ij}

                              样本间最大距离:dia(C)=\underset{1 \leq i<j\leq|C|}{max}d_{ij}

        ③样本距离:样本间最短距离:D_{pq}=min{d_{ij}|x^{(i)}\in C_p,x^{(j)}\in C_q}

                              样本均值间距离:D_{pq}=d_{\mu_p \mu_q}

        ④聚类效果评价外部指标

                         JC系数=\frac{\#TP}{\#TP+\#FN+\#FP}        (TP除以总数)

                                     内部指标

 

        1.K均值聚类

                ①确定K值,随后随机生成K个类中心

                ②根据点到类中心的距离,将空间划分为K个区域,同一个区域内划分为一个类

                ③根据划分重新计算每个类的类中心

                ④由新的类中心重新划分区域,随后重复③、④。直至收敛(类中心不再变化)

                K均值聚类的目标函数

                        E=\sum_{i=1}^k\sum_{x\in C_i}||x-\mu_i||_2^2        其中\mu_i为第 i 个簇C_i的均值向量

                K的选择:K为超参数

                         K↑,平均半径↓。一般选择平缓段的K

                类中心的初始化:

                        ①大于最小间距随机点\样本点

                        ②K个相互距离最远的样本点

                        ③K个等距网格点

                优点:实现简单、时间复杂度低

                缺点:K值的选择、主要适合凸集、初始值影响较大

        2.层次聚类

                通过计算不同数据点的相似度来创建有层次的嵌套聚类树

                 聚合过程:属于自底向上

                        ①将每个样本分到单独的类

                        ②通过迭代将其相似的不断聚合(计算两两类的距离,将距离最小的两个合并

                 分裂过程:属于自顶向下

                        ①将所有样本划分为同一个类

                        ②通过迭代使其不断分裂(计算两两类的距离,找出两个距离最远的样本a,b,计算其他点到a,b的距离,将其划分到较近<比如dis(a)<dis(b)>的簇中)

                 优点:简单且便于理解

                 缺点:合并点/分裂点难以选择;不能撤销操作;不适合大数据;执行效率低

二、特征学习

         目的:特征提取、去噪、降维、数据可视化

        1.主成分分析

                原始数据可能存在的问题:维度过高、冗余性过高(难以学习);可以通过降维的方法解决

                ①线性投影z=W^Tx

                ②并满足W^TW=I

                ③优化准则->最大投影方差:转换后数据的方差最大(尽可能保存原数据信息)

                        投影后的方差:\sigma(X;w)=w^T\sum w

                        目标函数:\underset{w}{max}w^T\sum w+\lambda(1-w^Tw)     对目标函数求导=0可得\sum w=\lambda m

                                      最小重构误差

        2.编码与稀疏编码

                 x=\sum_{m=1}^{M}z_ma_m=Az

                过完备:基向量个数远大于其支撑空间维度,这种基向量一般不具备独立、正交等性质

                稀疏编码:原始向量中的特征由少数基向量加权构成

                        L(A,Z)=\sum_{n=1}^N(||x^{(n)}-Az^{(n)}||^2+\eta \rho(z^{(n)}))

                                \rho为稀疏性衡量函数,\eta是一个超参数,用以控制稀疏性强度

                 交替优化

                 优点:降低后续计算量、可解释行强、便于特征选择

        3.自编码器

                 目标函数:重构错误L=\sum_{n=1}^N||x^{(n)}=f\bigcirc g(x^{(n)})||^2

                稀疏自编码器:给自编码器的隐藏层单元加上稀疏限制

                        L=\sum_{n=1}^N||x^{(n)}-{x}'^{(n)}||^2+\eta\rho(Z)+\lambda||W||^2

                降噪自编码器:通过引入噪声来增加编码鲁棒性的自编码器

         4.自监督学习

                自监督学习依旧是X->Y的映射学习(而非类聚)

                通过人为对X的扰动,进行学习(比如旋转图像)

三、密度估计

        1.参数密度估计

                先假设随机变量服从某种分布,再通过训练样本来估计分布的参数

                最大似然估计:logp(D;\theta)=\sum_{n=1}^Nlogp(x^{(n)};\theta)

                存在的问题

                        ①模型选择问题:如何选择密度函数

                        ②不可观测变量问题:难以准确估计数据的真实分布

                        ③维度灾难问题:样本随维度增加而指数增加;样本不足时会出现过拟合

        2.非参数密度估计

                不假设随机变量服从某种分布,通过样本空间的划分来估计近似数据的概率密度

                原型公式p(x)\approx \frac{K}{NV}

                        其中:K为落入R中的样本数量;N为训练样本;实质上是由P=\int _Rp(x)dx推导而来

                ①直方图法

                 ②核密度估计

                 ③K近邻方法

                 优势:非参数密度估计不需要保留整个训练集,便于计算和存储

四、半监督学习

        1.区别

                监督学习:提供任务相关的标签(打标签费时费力且数量有限)

                无监督学习:不用打标签,数量充足(但仅限于特殊任务)

        2.模式

                自训练

                        先使用监督学习训练模型

                        再使用模型进行分类

                        最后将这个簇标注后混合原来的数据集再次用于模型训练

                协同训练

                         采用n种不同的方式训练分类器,让这些分类器互相分对方的数据

  • 8
    点赞
  • 30
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值