上一篇我们大概学习了机器学习基本概念,这一节将了解监督学习
定义
监督学习是一种从x到y,或者说是从输入到输出映射的一种算法,也就是说,通过分析一系列给定的输入和正确的输出,机器学习算法可以在我们只给出输入的情况下,对输出进行和合理准确的预测和猜测。
例子
输出 | 处理分析 | 输出 |
邮件 | 垃圾邮件过滤器 | 是否是垃圾邮件 |
音频 | 语音识别系统 | 转换后的文字 |
汉语 | 机器翻译 | 英语 |
广告信息+个人信息 | 在线广告平台 | 是否点击广告 |
图像+其他传感器 | 自动驾驶汽车 | 其他汽车位置(以便绕过 其他汽车) |
手机等的图片 | 目视检查 | 是否存在裂痕等瑕疵 |
类别
回归(Regression)
下面是监督学习的另一个例子,现在我们已知一部分房子的房价和面积,(红色的×),那我们怎么知道一个没有出现过的房屋面积(比如750)对应的房价呢?我们会去用线段拟合已知xy数值对,然后再取x为750,得到对应的y,但是我们所拟合的直线不同,得到的结果也是不同的。我们的机器学习算法就是期望找到一个计算方法来得到最准确最合理的y值。这种类型的监督学习我们也叫它回归(Regression)。
回归(Regression)就是从无限多可能的数字中预测一个更为合理的数字,房价例子中,面积是750时,房价可能是150,150.1,160……,我们就是要从这无限多个数字中选择一个最合适最准确的值。
分类(Classification)
用一个肿瘤检测问题作为分类的例子,假如我们正在构建一个方便医生检测肿瘤的机器学习系统,我们输入患者的医疗记录,机器学习系统会尝试去判断着个肿瘤是不是恶性的,是否会发生癌变。我们可以给出一系列已知的数据,比如用这种格式:
输入 | 输出(0:良性 1:恶性) |
肿瘤状态1 | 0 |
肿瘤状态2 | 1 |
肿瘤状态3 | 1 |
肿瘤状态4 | 0 |
…… | …… |
那么我们应该可以得到这样一个图(x是肿瘤的状态,或者大小,纵坐标代表是否是恶性肿瘤)
在这样的情况下,显然我们想要的得到的结果无非就是0或者1,良性或者恶性,这与前面所讲的回归是不一样的。我们说回归是从无限多可能的数字中选择一个,而这里的分类是要求我们从有限个可能输出中选择一个。
对于上面的图像我们也可以用另外一种方式来表示
蓝色圆圈表示良性的,红色×表示恶性的,假如横坐标仍然为肿瘤的大小,那么如果一个病人的肿瘤大小已知,我们便可以依据之前的数据来对肿瘤情况进行预测。
当然,输入也可以是很多个,比如肿瘤的例子,输出也是年龄+肿瘤大小,这样的话就可以得到下面这张图,有病人来了之后,医生依据病人的年龄和肿瘤的大小可以给出更为准确的结果。
tips:分类的专业术语中,output class和output category是经常互换使用的。
分类是预测类别,类别不一定是数字,比如预测一张图片是小猫还是小狗,也可以预测肿瘤是良性还是恶性,当然也可以是数字,重点在于可能的输出是有限的。
总结
监督学习是从x到y的映射,机器学习算法从正确的输入输出中学习(Learns from being ge)
监督学习主要分为回归(regression)和分类(classification),回归是从无限多可能的结果中预测一个结果,而分类是从有限个结果中预测一个结果。