监督学习是机器学习中的一种训练方式/学习方式。
监督学习是指通过让机器去学习大量带有标签的样本数据,训练出一个模型,并使该模型可以根据输入得到相应输出的过程。通过已有的一部分输入数据与输出数据之间的对应关系,生成一个函数,将输入映射到合适的输出,例如 分类。
通俗举例:高考试题是在考试前就有标准答案的,在学习和做题的过程中,可以对照答案,分析问题找出方法。在高考题没有给出答案的时候,也是可以给出正确的解决。这就是监督学习。
监督学习的流程
监督并不是指人站在机器旁边看机器做的对不对,而是下面的流程:
(1)选择一个适合目标任务的数学模型
(2)先把一部分已知的“问题和答案”(训练集)给机器去学习
(3)机器总结出了自己的“方法论”
(4)人类把"新的问题”(测试集)给机器,让他去解答
什么是无监督学习
无监督学习是机器学习中的一种训练方式/学习方式。更像是让机器自学,是没有标签的一种学习。无法清楚判断数据集中数据、特征之间的关系,而是要根据聚类或—定的模型得到数据之间的关系。
无监督学习常常被用于数据挖掘,用于在大量无标签数据中发现些什么。它的训练数据是无标签的,训练目标是能对规察值进行分类或者区分等。例如无监督学习应该能在不给任何额外提示的情况下,仅依据所有“猫”的图片的特征,将“猫”的图片从大量的各种各样的图片中将区分出来。
无监督学习的类别
无监督主要有三种:聚类、离散点检测和降维。
聚类就是将观察值聚成一个一个的组,每一个组都含有一个或者几个特征。无监督学习中,数据是没有标签的或者是有一样的标签的。不清楚数据的含义和作用,只知道是有一个数据集的。数据集可以判断是有两个数据集,自己进行分类,这就是聚类学习。
可以想象,恰当地提取特征是无监督最为关键的环节。在猫的识别中,我们来尝试提取猫的特征:皮毛、四肢、耳朵、眼睛、胡须、牙齿、舌头等等。通过对特征相同的动物的聚类,可以将猫或者猫科动物聚成一类。但是此时,我们不知道这群毛茸茸的东西是什么,我们只知道,这团东西属于一类,兔子不在这个类(耳朵不符合),飞机也不在这个类(有翅膀)。特征有效性直接决定着算法有效性。如果我们拿体重来聚类,而忽略体态特征,恐怕就很难区分出兔子和猫了。
聚类经常应用在手机新闻中,比较典型的是一些聚合新闻网站,利用爬虫爬取新闻后对新闻进行分类的问题。比口谷歌新闻每天都在,收集非常多,非常多的网络的新闻内容。机器将这些新闻分组,同一主题,显示到一起,组成有关联的新闻。所以谷歌新闻做的就是搜索非常多的新闻事件,自动地把它们聚类到—起。
除了聚类算法外,无监督学习中还有一类重要的算法就是降维的算法,降维指的是使用较少的列或特征来表示数据的方法,原理是将样本点从输入空间通过线性或非线性变换映射到一个低维空间,从而获得一个关于原数据集的低维表示
监督学习与无监督学习区别
1.有监督学习方法必须要有训练集与测试样本。在训练集中找规律,而对测试样本使用这种规律。而非监督学习没有训练集,只有一组数据,在该组数据集内寻找规律。
⒉有监督学习的方法就是识别事物,识别的结果表现在给待识别数据加上了标签。因此训练样本集必须由带标签的样本组成。而非监督学习方法只有要分析的数据集的本身,预先没有什么标签。如果发现数据集呈现某种聚集性,则可按自然的聚集性分类,但不予以某种预先分类标签对上号为目的。
3.非监督学习方法在寻找数据集中的规律性,这种规律性并不一定要达到划分数据集的目的,也就是说不一定要“分类”。这一点是比有监督学习方法的用途要广。熙如分析—堆数据的主分量,或分析数据集有什么特点都可以归于非监督学习方法的范畴。
4.用非监督学习方法分析数据集的主分量与用K-L变换计算数据集的主分量又有区别。后者从方法上讲不是学习方法。因此用K-L变换找主分量不属于无监督学习方法,即方法上不是。而通过学习逐渐找到规律性这体现了学习方法这一点。在人工神经元网络中寻找主分量的方法属于无监督学习方法。