无监督学习算法
尽管有监督的机器学习和深度学习取得了成功,但有一种观点认为无监督的学习具有更大的潜力。 监督学习系统的学习受到其培训的限制; 即,监督学习系统只能学习经过培训的任务。 相比之下,无监督系统理论上可以实现“人工通用情报”,这意味着有能力学习人类可以学习的任何任务。 但是,该技术还不存在。
如果监督学习的最大问题是标记训练数据的开销,那么无监督学习(未标记数据)的最大问题是它通常不能很好地工作。 尽管如此,无监督学习的确有其用处:它有时可以减少数据集的维数,探索数据的模式和结构,寻找相似对象的组以及检测数据中的异常值和其他噪声。
通常,在探索性数据分析中尝试尝试无监督学习方法以发现模式和聚类,减少数据的维数,发现潜在特征并消除异常值是值得的。 然后,您是否需要继续进行监督学习还是使用预先训练的模型进行预测取决于您的目标和数据。
什么是无监督学习?
想想人类儿童如何学习。 作为父母或老师,您不需要向幼儿展示各种猫狗,只需教他们识别猫狗。 他们可以从一些示例中学习,而无需大量解释,并且可以自行总结。 哦,他们第一次见到它们时可能会误称吉娃娃“ Kitty”,但是您可以相对较快地纠正它。
孩子们会直观地将他们看到的事物分组。 无监督学习的一个目标实质上是允许计算机发展相同的能力。 正如DeepMind的Alex Graves和Kelly Clancy在其博客文章“ 无监督学习:好奇的学生 ”中所说的那样
无监督学习是一种通过奖励代理商(即计算机程序)来学习他们观察到的数据而无需考虑特定任务的情况下创建自治智能的范例。 换句话说,主体是为了学习而学习。
为了学习而学习的主体的潜力远大于将复杂图片简化为二进制决策(例如狗或猫)的系统的潜力。 劳伦斯伯克利实验室的研究人员对数百万种材料科学摘要运行文本处理算法(Word2vec)来预测新的热电材料的发现时,发现模式而不是执行预定的任务可以产生令人惊讶且有用的结果。
聚类方法
聚类问题是一种无监督的学习问题,它要求模型查找相似数据点的组。 当前使用了许多聚类算法,这些算法往往具有稍微不同的特征。 通常,聚类算法查看数据点的特征向量之间的度量或距离函数,然后将彼此“接近”的度量或距离函数分组。 如果类不重叠,则聚类算法最有效。
层次聚类
层次聚类分析(HCA)可以是聚集的(从下至上以单个点开始构建聚类,然后以单个聚类结束)或分裂式的(从单个聚类开始并分解直到最终形成单个点)。 如果幸运的话,您会发现聚类过程的中间阶段可以反映出有意义的分类。
聚类过程通常显示为树状图(树形图)。 HCA算法倾向于占用大量的计算时间[ O (n 3 )]和内存[ O (n 2 )]资源。 这些将算法的适用性限制为相对较小的数据集。
HCA算法可以使用各种指标和链接标准。 欧几里得距离和平方欧几里得距离对于数值数据来说都是常见的。 对于非数值数据,汉明距离和莱文施泰因距离很常见。 单链接和完全链接是常见的。 这两个都可以简化聚类算法(分别是SLINK和CLINK)。 SLINK是保证找到最佳解决方案的少数聚类算法之一。
K均值聚类
k均值聚类问题尝试使用欧几里得距离度量将n个观测值划分为k个聚类,目的是最小化每个聚类中的方差(平方和)。 它是矢量量化的一种方法,对于特征学习很有用。
劳埃德(Lloyd)算法(带有质心更新的迭代集群集聚)是解决该问题最常用的启发式算法,相对有效,但不能保证全局收敛。 为了改善这一点,人们经常使用由Forgy或Random Partition方法生成的随机初始簇质心多次运行该算法。
K均值假设球状群集是可分离的,因此均值朝群集中心收敛,并且还假设数据点的顺序无关紧要。 集群的大小应相似,因此分配给最近的集群中心是正确的分配。
解决k均值聚类的启发式方法通常类似于高斯混合模型的期望最大化(EM)算法。
混合模型
混合模型假定观测的子种群对应于某种概率分布,对于数字观测通常是高斯分布,对于非数值数据则是分类分布。 每个子种群可以具有其自己的分布参数,例如高斯分布的均值和方差。
期望最大化(EM)是用于确定具有给定数量组分的混合物参数的最流行技术之一。 除EM外,还可以使用马尔可夫链蒙特卡洛,矩匹配,具有奇异值分解(SVD)的频谱方法和图形方法来求解混合模型。
最初的混合模型应用是通过前额与体长的比率来分离两个岸蟹种群。 卡尔·皮尔森(Karl Pearson)在1894年使用矩匹配解决了这个问题。
混合模型的常见扩展是将定义混合成分身份的潜在变量连接到马尔可夫链中,而不是假设它们是独立的,均匀分布的随机变量。 结果模型称为隐马尔可夫模型,是最常见的顺序层次模型之一。
DBSCAN算法
基于密度的带噪声的应用程序空间聚类(DBSCAN)是一种非参数数据聚类算法,其始于1996年。它已针对与可使用R *树或某些其他几何索引结构来加速几何区域查询的数据库进行了优化。 。
本质上,DBSCAN将在某个距离Epsilon内具有多个邻居的最小数量的核心点聚类,将Epsilon内没有邻居的异常点丢弃,并在该集群中添加核心点的Epsilon内的点。 DBSCAN是最常见的聚类算法之一,可以找到任意形状的聚类。
OPTICS算法
识别聚类结构的排序点(OPTICS)是一种用于在空间数据中查找基于密度的聚类的算法。 OPTICS与DBSCAN相似,但是处理点密度变化的情况。
DBSCAN和OPTICS中思想的变化也可以用于简单的异常值以及噪声检测和消除。
潜在变量模型
潜在变量模型是将一组可观察变量与一组潜在(隐藏)变量相关联的统计模型。 潜在变量模型对于揭示复杂和高维数据中的隐藏结构很有用。
主成分分析
主成分分析(PCA)是一种统计过程,该过程使用正交变换将一组可能相关的数字变量的观测值转换为一组线性不相关的变量值(称为主成分)。 卡尔·皮尔森(Karl Pearson)于1901年发明了PCA。PCA可以通过数据协方差(或相关)矩阵的特征值分解或数据矩阵的奇异值分解(SVD)来完成,通常在初始数据的归一化步骤之后。
奇异值分解
奇异值分解(SVD)是实数或复数矩阵的分解。 这是线性代数中的常用技术,通常使用Householder变换进行计算。 SVD是解决主成分的一种方法。 虽然完全可以从头开始编写SVD,但在所有线性代数库中都有不错的实现。
矩量法
矩量法使用观测数据样本的矩量(均值,方差,偏度和峰度)估计总体参数。 该方法非常简单,通常可以手动计算,并且通常可以实现全局收敛。 但是,在统计量较低的情况下,矩量法有时会产生超出参数空间的估计值。 矩量法是求解混合模型的一种简便方法(如上所述)。
期望最大化算法
期望最大化(EM)算法是一种迭代方法,可以在依赖于未观察到的潜在变量的模型中找到参数的最大似然估计。 EM迭代会在执行期望步骤(E)和最大化步骤(M)之间进行交替,该期望步骤创建用于使用参数的当前估计值评估对数似然性的期望的函数,该最大化步骤(M)计算使期望对数最大化的参数在E步骤中发现的可能性。
EM收敛到最大值或鞍点,但不一定收敛到全局最大值。 您可以通过从参数的许多随机初始估计值中重复执行EM过程或使用矩量法确定初始估计值,来增加找到全局最大值的机会。
应用于高斯混合模型(上文)的EM可用于聚类分析。
无监督神经网络
神经网络通常在标记的数据上进行训练,以进行分类或回归,根据定义,监督或监督机器学习。 还可以使用各种无监督方案对未标记数据进行培训。
自动编码器
自动编码器是根据其输入进行训练的神经网络。 本质上,自动编码器是一种前馈网络,用作编解码器,将其输入从输入层编码到神经元数量较少的一个或多个隐藏层,然后将编码的表示解码为拓扑为输出的输出层。输入。
在训练过程中,自动编码器使用反向传播来最小化输入和输出之间的差异。 自动编码器已用于降维,特征学习,降噪,异常检测,图像处理以及学习生成模型。
深度信仰网络
深度信任网络 (DBN)是自动编码器或受限制的Boltzmann机器(RBN)的堆栈,可以学习重建其输入。 然后,这些层充当特征检测器。 RBN通常使用对比散度进行训练。
DBN已用于生成和识别图像,视频序列和运动捕捉数据。
生成对抗网络
生成对抗网络 ( GAN )同时训练两个网络,一个捕获数据分布的生成模型,以及一个估计样本来自训练数据的概率的判别模型。 训练试图使生成器欺骗鉴别器的可能性最大化。
GAN可用于创建虚构人物的照片并改善天文图像。 GAN也已用于放大旧视频游戏的纹理,以用于高分辨率版本的游戏。 在无监督学习之外,GAN已成功应用于增强游戏玩法的学习。
自组织图
自组织映射 (SOM)定义了从一组给定数据项到规则的通常是二维网格的有序映射。 模型与每个网格节点关联。 数据项将被映射到其模型与该数据项最相似的节点,即在某个度量标准中与该数据项的距离最小。
您需要采取许多预防措施,以确保映射稳定且井井有条。 并非所有的商业实施都遵循所有的预防措施。
翻译自: https://www.infoworld.com/article/3429017/unsupervised-learning-explained.html
无监督学习算法