ML笔记第一周（一）：有监督学习与无监督学习

最新推荐文章于 2023-07-26 16:37:51 发布

朕蹲厕唱忐忑

最新推荐文章于 2023-07-26 16:37:51 发布

阅读量289

点赞数

分类专栏：机器学习

机器学习专栏收录该内容

23 篇文章 0 订阅

订阅专栏

文章内容大多来自互联网，只是加了点排版和整理补充，我是搬运工~~
机器学习：一个程序被认为能从经验E（Experience ）中学习，解决任务 T（Task），达到性能度量值P（Performance measure），当且仅当，有了经验E后，经过P评判，程序在处理 T 时的性能有所提升。

1 有监督学习（Supervising Learning）

在监督学习中，给定一组数据，我们知道正确的输出结果应该是什么样子，并且知道在输入和输出之间有着一个特定的关系。
监督学习问题分为“回归”和“分类”问题。

1.1回归（Regression）

在回归问题中，我们试图在连续输出中预测结果，这意味着我们正在尝试将输入变量映射到某个连续函数。

举例：通过房地产市场的数据，预测一个给定面积的房屋的价格就是一个回归问题。这里我们可以把价格看成是面积的函数，它是一个连续的输出值。但是，当把上面的问题改为“预测一个给定面积的房屋的价格是否比一个特定的价格高或者低”的时候，这就变成了一个分类问题, 因为此时的输出是‘高’或者‘低’两个离散的值。
在这里插入图片描述

1.2 分类（Classification）

在分类问题中，我们试图在离散输出中预测结果。换句话说，我们正在尝试将输入变量映射到离散类别。

举例：
给定医学数据，通过肿瘤的大小来预测该肿瘤是恶性瘤还是良性瘤(课程中给的是乳腺癌的例子)，这就是一个分类问题，它的输出是0或者1两个离散的值。(0代表良性，1代表恶性)。

分类问题的输出可以多于两个，比如在该例子中可以有{0,1,2,3}四种输出，分别对应{良性, 第一类肿瘤, 第二类肿瘤, 第三类肿瘤}。

下图中上下两个图只是两种画法。第一个是有两个轴，Y轴表示是否是恶性瘤，X轴表示瘤的大小; 第二个是只用一个轴，但是用了不同的标记，用O表示良性瘤，X表示恶性瘤。
在这里插入图片描述
在这个例子中特征只有一个，那就是瘤的大小。有时候也有两个或者多个特征, 例如下图，有“年龄”和“肿瘤大小”两个特征。(还可以有其他许多特征，如下图所示)

2 无监督学习（Unsupervised Learning）

在无监督学习中，我们基本上不知道结果会是什么样子，但我们可以通过聚类的方式从数据中提取一个特殊的结构。在无监督学习中给定的数据是和监督学习中给定的数据是不一样的。在无监督学习中给定的数据没有任何标签或者说只有同一种标签。如下右图所示：
在这里插入图片描述
在无监督学习中，我们只是给定了一组数据，我们的目标是发现这组数据中的特殊结构。例如我们使用无监督学习算法会将这组数据分成两个不同的簇,，这样的算法就叫聚类算法。

2.1 新闻分类

第一个例子举的是Google News的例子。Google News搜集网上的新闻，并且根据新闻的主题将新闻分成许多簇, 然后将在同一个簇的新闻放在一起。如图中红圈部分都是关于BP Oil Well各种新闻的链接，当打开各个新闻链接的时候，展现的都是关于BP Oil Well的新闻。
在这里插入图片描述

2.2 根据给定基因将人群分类

如图是DNA数据，对于一组不同的人我们测量他们DNA中对于一个特定基因的表达程度。然后根据测量结果可以用聚类算法将他们分成不同的类型。这就是一种无监督学习, 因为我们只是给定了一些数据，而并不知道哪些是第一种类型的人，哪些是第二种类型的人等等。
在这里插入图片描述

2.3 鸡尾酒派对效应

有一个宴会，有一屋子的人，大家都坐在一起，而且在同时说话，有许多声音混杂在一起。因为每个人都是在同一时间说话的，在这种情况下你很难听清楚你面前的人说的话，因此，比如有这样一个场景，宴会上只有两个人同时说话，我们准备好了两个麦克风，把它们放在房间里。然后，因为这两个麦克风距离这两个人的距离是不同的，每个麦克风都记录下了来自两个人的声音的不同组合。
在这里插入图片描述