神经网络（九）无监督学习

最新推荐文章于 2023-07-18 08:30:00 发布

ViperL1

最新推荐文章于 2023-07-18 08:30:00 发布

阅读量3.1k

点赞数 8

分类专栏：神经网络学习笔记文章标签：神经网络学习机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_37878740/article/details/126578136

版权

学习笔记同时被 2 个专栏收录

155 篇文章 12 订阅

订阅专栏

72 篇文章 16 订阅

订阅专栏

有监督学习：建立映射关系 f:x->y

无监督学习：从无标签的数据中学习有用的模式

一、聚类

将样本中相似的样本分配给相同的类/簇

样本间距/相似性：L1、L2距离；余弦距离；相关系数；汉明距离

常见的聚类任务：图像分割；文本聚类；社交网络分析

①类/簇：可以理解为一组相似的样本，但是并无严格定义

②类内间距：样本间最大距离： $avg(C)=\frac{2}{|C|(|C|-1)}\sum_{1\leq i< j\leq |C|}d_{ij}$

样本间最大距离： $dia(C)=\underset{1 \leq i<j\leq|C|}{max}d_{ij}$

③样本距离：样本间最短距离： $D_{pq}=min{d_{ij}|x^{(i)}\in C_p,x^{(j)}\in C_q}$

样本均值间距离： $D_{pq}=d_{\mu_p \mu_q}$

④聚类效果评价：外部指标

JC系数= $\frac{\#TP}{\#TP+\#FN+\#FP}$ （TP除以总数）

内部指标

1.K均值聚类

①确定K值，随后随机生成K个类中心

②根据点到类中心的距离，将空间划分为K个区域，同一个区域内划分为一个类

③根据划分重新计算每个类的类中心

④由新的类中心重新划分区域，随后重复③、④。直至收敛（类中心不再变化）

K均值聚类的目标函数

$E=\sum_{i=1}^k\sum_{x\in C_i}||x-\mu_i||_2^2$ 其中 $\mu_i$ 为第 i 个簇 $C_i$ 的均值向量

K的选择：K为超参数。

K↑，平均半径↓。一般选择平缓段的K

类中心的初始化：

①大于最小间距的随机点\样本点

②K个相互距离最远的样本点

③K个等距网格点

优点：实现简单、时间复杂度低

缺点：K值的选择、主要适合凸集、初始值影响较大

2.层次聚类

通过计算不同数据点的相似度来创建有层次的嵌套聚类树

聚合过程：属于自底向上

①将每个样本分到单独的类

②通过迭代将其相似的不断聚合（计算两两类的距离，将距离最小的两个合并）

分裂过程：属于自顶向下

①将所有样本划分为同一个类

②通过迭代使其不断分裂（计算两两类的距离，找出两个距离最远的样本a，b，计算其他点到a,b的距离，将其划分到较近<比如dis(a)<dis(b)>的簇中）

优点：简单且便于理解

缺点：合并点/分裂点难以选择；不能撤销操作；不适合大数据；执行效率低

二、特征学习

目的：特征提取、去噪、降维、数据可视化

1.主成分分析

原始数据可能存在的问题：维度过高、冗余性过高(难以学习)；可以通过降维的方法解决

①线性投影： $z=W^Tx$

②并满足： $W^TW=I$

③优化准则->最大投影方差：转换后数据的方差最大（尽可能保存原数据信息）

投影后的方差： $\sigma(X;w)=w^T\sum w$

目标函数： $\underset{w}{max}w^T\sum w+\lambda(1-w^Tw)$ 对目标函数求导=0可得 $\sum w=\lambda m$

最小重构误差

2.编码与稀疏编码

$x=\sum_{m=1}^{M}z_ma_m=Az$

过完备：基向量个数远大于其支撑空间维度，这种基向量一般不具备独立、正交等性质

稀疏编码：原始向量中的特征由少数基向量加权构成

$L(A,Z)=\sum_{n=1}^N(||x^{(n)}-Az^{(n)}||^2+\eta \rho(z^{(n)}))$

$\rho$ 为稀疏性衡量函数， $\eta$ 是一个超参数，用以控制稀疏性强度

交替优化：

优点：降低后续计算量、可解释行强、便于特征选择

3.自编码器

目标函数：重构错误 $L=\sum_{n=1}^N||x^{(n)}=f\bigcirc g(x^{(n)})||^2$

稀疏自编码器：给自编码器的隐藏层单元加上稀疏限制

$L=\sum_{n=1}^N||x^{(n)}-{x}'^{(n)}||^2+\eta\rho(Z)+\lambda||W||^2$

降噪自编码器：通过引入噪声来增加编码鲁棒性的自编码器

4.自监督学习

自监督学习依旧是X->Y的映射学习(而非类聚)

通过人为对X的扰动，进行学习（比如旋转图像）

三、密度估计

1.参数密度估计

先假设随机变量服从某种分布，再通过训练样本来估计分布的参数

最大似然估计： $logp(D;\theta)=\sum_{n=1}^Nlogp(x^{(n)};\theta)$

存在的问题

①模型选择问题：如何选择密度函数

②不可观测变量问题：难以准确估计数据的真实分布

③维度灾难问题：样本随维度增加而指数增加；样本不足时会出现过拟合

2.非参数密度估计

不假设随机变量服从某种分布，通过样本空间的划分来估计近似数据的概率密度

原型公式： $p(x)\approx \frac{K}{NV}$

其中：K为落入R中的样本数量；N为训练样本；实质上是由 $P=\int _Rp(x)dx$ 推导而来

①直方图法

②核密度估计

③K近邻方法

优势：非参数密度估计不需要保留整个训练集，便于计算和存储

四、半监督学习

1.区别

监督学习：提供任务相关的标签（打标签费时费力且数量有限）

无监督学习：不用打标签，数量充足（但仅限于特殊任务）

2.模式

自训练

先使用监督学习训练模型

再使用模型进行分类

最后将这个簇标注后混合原来的数据集再次用于模型训练

协同训练

采用n种不同的方式训练分类器，让这些分类器互相分对方的数据

关注

8
点赞
踩
30

收藏

觉得还不错? 一键收藏
3
评论
神经网络（九）无监督学习

无监督学习概述
复制链接

扫一扫

专栏目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。