入坑机器学习：三，非监督学习

最新推荐文章于 2024-08-17 13:10:46 发布

喜欢吃豆

最新推荐文章于 2024-08-17 13:10:46 发布

阅读量570

点赞数

分类专栏：机器学习文章标签：机器学习学习人工智能

本文链接：https://blog.csdn.net/m0_63309778/article/details/125504199

版权

机器学习专栏收录该内容

19 篇文章 14 订阅

订阅专栏

首先给大家看一个图。

我们回想一下上一章里面给的两个例子，如上图左所示，数据集中每条数据都已经标明是阴性或阳性（正例或负例）。即，我们对于监督学习里面的每条数据都已经很清楚的知道训练集对应的“正确答案”。

而在无监督学习中，我们已知的数据并没有给出所谓的“正确答案”。

不同于监督学习的数据的样子，即无监督学习中没有任何的标签或者是有相同的标签或者就是没标签。所以我们已知数据集，却不知如何处理，也未告知每个数据点是什么。别的都不知道，就是一个数据集。你能从数据中找到某种结构吗？针对数据集，无监督学习就能判断出数据有两个不同的聚集簇。这是一个，那是另一个，二者不同。是的，无监督学习算法可能会把这些数据分成两个不同的簇。所以叫做聚类算法。

因为我们没有提前告知算法一些信息，比如，这是第一类的人，那些是第二类的人，还有第三类，等等。我们只是说，是的，这是有一堆数据。我不知道数据里面有什么。我不知道谁是什么类型。我甚至不知道人们有哪些不同的类型，这些类型又是什么。但你能自动地找到数据中的结构吗？就是说你要自动地聚类那些个体到各个类，我没法提前知道哪些是哪些。因为我们没有给算法正确答案来回应数据集中的数据，所以这就是无监督学习。

无监督学习或聚集有着大量的应用。它用于组织大型计算机集群。那里有大型的计算机集群，他们想解决什么样的机器易于协同地工作，如果你能够让那些机器协同工作，你就能让你的数据中心工作得更高效。第二种应用就是社交网络的分析。所以已知你朋友的信息，比如你经常发 email 的，或是你 Facebook 的朋友、谷歌 + 圈子的朋友，我们能否自动地给出朋友的分组呢？即每组里的人们彼此都熟识，认识组里的所有人？还有市场分割。许多公司有大型的数据库，存储消费者信息。所以，你能检索这些顾客数据集，自动地发现市场分类，并自动地把顾客划分到不同的细分市场中，你才能自动并更有效地销售或不同的细分市场一起进行销售。这也是无监督学习，因为我们拥有所有的顾客数据，但我们没有提前知道是什么的细分市场，以及分别有哪些我们数据集中的顾客。我们不知道谁是在一号细分市场，谁在二号市场，等等。那我们就必须让算法从数据中发现这

一切。最后，无监督学习也可用于天文数据分析，这些聚类算法给出了令人惊讶、有趣、有用的理论，解释了星系是如何诞生的。这些都是聚类的例子，聚类只是无监督学习中的一种。

例子：鸡尾酒宴问题：

你可以想像下，有个宴会房间里满是人，全部坐着，都在聊天，这么多人同时在聊天，声音彼此重

叠，因为每个人都在说话，同一时间都在说话，你几乎听不到你面前那人的声音。所以，可能在一个这样的鸡尾酒宴中的两个人，他俩同时都在说话，假设现在是在个有些小的鸡尾酒宴中。我们放两个麦克风在房间中，因为这些麦克风在两个地方，离说话人的距离不同每个麦克风记录下不同的声音，虽然是同样的两个说话人。听起来像是两份录音被叠加到一起，或是被归结到一起，产生了我们现在的这些录音。另外，这个算法还会区分出两个音频资源，这两个可以合成或合并成之前的录音。

我们介绍了无监督学习，它是学习策略，交给算法大量的数据，并让算法为我们从数据

中找出某种结构。

新闻事件分类 的例子，就是那个谷歌新闻的例子，我们在本视频中有见到了，我们看到，可以用一个聚类算法来聚类这些文章到一起，所以是无监督学习 。

细分市场 的例子，我在更早一点的时间讲过，你可以当作 无监督学习 问题，因为我只是拿到算法数据，再让算法去自动地发现细分市场。

最后一个例子， 糖尿病 ，这个其实就像是我们的乳腺癌，上个视频里的。只是替换了好、坏肿瘤，良性、恶性肿瘤，我们改用糖尿病或没病。所以我们把这个当作监督学习 ，我们能够解决它，作为一个监督学习问题，就像我们在乳腺癌数据中做的一样

背景与意义

现实生活中常常会有这样的问题：

（1）缺乏足够的先验知识，因此难以人工标注类别;

（2）进行人工类别标注的成本太高。

很自然地，我们希望计算机能代我们(部分)完成这些工作，或至少提供一些帮助。常见的应用背景包括：

（1）从庞大的样本集合中选出一些具有代表性的加以标注用于分类器的训练。

（2）先将所有样本自动分为不同的类别，再由人类对这些类别进行标注。

（3）在无类别信息情况下，寻找好的特征。 [1]

常用算法

常用的无监督学习算法主要有主成分分析方法PCA等，等距映射方法、局部线性嵌入方法、拉普拉斯特征映射方法、黑塞局部线性嵌入方法和局部切空间排列方法等。 [2]

从原理上来说PCA等数据降维算法同样适用于深度学习，但是这些数据降维方法复杂度较高，并且其算法的目标太明确，使得抽象后的低维数据中没有次要信息，而这些次要信息可能在更高层看来是区分数据的主要因素。所以现在深度学习中采用的无监督学习方法通常采用较为简单的算法和直观的评价标准。

典型例子-聚类

无监督学习里典型例子是聚类。聚类的目的在于把相似的东西聚在一起，而我们并不关心这一类是什么。因此，一个聚类算法通常只需要知道如何计算相似度就可以开始工作了。

聚类算法一般有五种方法，最主要的是划分方法和层次方法两种。划分聚类算法通过优化评价函数把数据集分割为K个部分，它需要K作为输入参数。典型的分割聚类算法有K-means算法, K-medoids算法、CLARANS算法。层次聚类由不同层次的分割聚类组成，层次之间的分割具有嵌套的关系。它不需要输入参数，这是它优于分割聚类算法的一个明显的优点，其缺点是终止条件必须具体指定。典型的分层聚类算法有BIRCH算法、DBSCAN算法和CURE算法等。

分类

目前深度学习中的无监督学习主要分为两类，一类是确定型的自编码方法及其改进算法，其目标主要是能够从抽象后的数据中尽量无损地恢复原有数据，一类是概率型的受限波尔兹曼机及其改进算法，其目标主要是使受限玻尔兹曼机达到稳定状态时原数据出现的概率最大。

确定型无监督学习

确定型无监督学习主要有自编码及稀疏自编码、降噪自编码等。自编码可以看作是一个特殊的3层BP神经网络，特殊性体现在需要使得自编码网络的输入输出尽可能近似，即尽可能使得编码无损(能够从编码中还原出原来的信息)。虽然稀疏自编码可以学习一个相等函数，使得可见层数据和经过编码解码后的数据尽可能相等，但是其鲁棒性仍然较差，尤其是当测试样本和训练样本概率分布相差较大时，效果较差。为此，Vincent等人在稀疏自编码的基础上提出了降噪自编码，其基本思想是，以一定概率使输入层某些节点的值为0，此时输入到可视层的数据变为x^，隐含层输出为y，然后由重构x的输出z，使得z和x的差值尽可能的小。