吴恩达机器学习笔记：无监督学习

ちゆきー

已于 2025-05-12 20:05:51 修改

阅读量439

点赞数 4

分类专栏：机器学习文章标签：机器学习笔记学习

于 2025-05-12 17:18:13 首次发布

本文链接：https://blog.csdn.net/projectfailed/article/details/147899981

版权

机器学习专栏收录该内容

22 篇文章

订阅专栏

紧接上文
在这里插入图片描述
回想当时的数据集，如图所示，这个数据集中每条数据都已经标明是阴性或阳性，即是良性或恶性肿瘤。所以，对于监督学习里的每条数据，我们已经清楚地知道，训练集对应的正确答案，是良性或恶性了。

在无监督学习中，我们已知的数据看上去有点不一样，不同于监督学习的数据的样子，即无监督学习中没有任何的标签或者是有相同的标签或者就是没标签。所以我们已知数据集，却不知如何处理，也未告知每个数据点是什么，就是一个数据集。你能从数据中找到某种结构吗？

针对数据集，无监督学习就能判断出数据有两个不同的聚集簇。无监督学习算法可能会把这些数据分成两个不同的簇，所以叫做聚类算法。事实证明，它能被用在很多地方。

在这里插入图片描述
其中就有基因学的理解应用，一个DNA微观数据的例子。基本思想是输入一组不同个体，对其中的每个个体，你要分析出它们是否有一个特定的基因。技术上，你要分析多少特定基因已经表达。所以这些颜色，红，绿，灰等等颜色，这些颜色展示了相应的程度，即不同的个体是否有着一个特定的基因。你能做的就是运行一个聚类算法，把个体聚类到不同的类或不同类型的组（人）

这个就是无监督学习，没有提前告知算法一些信息，比如，这是第一类的人，那些是第二类的人，还有第三类，等等。我们只是说这有一堆数据。我不知道数据里面有什么，我不知道谁是什么类型，我甚至不知道有哪些不同的类型，这些类型又是什么。你能自动地找到数据中的结构吗？就是说你要自动地聚类那些个体到各个类，没法提前知道哪些是哪些。因为我们没有给算法正确答案来回应数据集中的数据。

聚集有着大量的应用，它用于组织大型计算机集群。解决什么样的机器易于协同地工作，如果你能够让那些机器协同工作，你就能让你的数据中心工作得更高效。第二种应用就是社交网络的分析。所以已知你朋友的信息，比如你经常发email的，或是你Facebook的朋友、谷歌的朋友，我们能否自动地给出朋友的分组呢？即每组里的人们彼此都熟识，认识组里的所有人？还有市场分割。许多公司有大型的数据库，存储消费者信息。你能检索这些顾客数据集，自动地发现市场分类，并自动地把顾客划分到不同的细分市场中，你才能自动并更有效地销售或不同的细分市场一起进行销售。这也是无监督学习，因为我们拥有所有的顾客数据，但我们没有提前知道是什么的细分市场，以及分别有哪些我们数据集中的顾客。我们就必须让算法从数据中发现这一切。最后，无监督学习也可用于天文数据分析，这些聚类算法给出了令人惊讶、有趣、有用的理论，解释了星系是如何诞生的。