监督学习和无监督学习的详细介绍

最新推荐文章于 2023-11-11 16:25:16 发布

AllyLi0224

最新推荐文章于 2023-11-11 16:25:16 发布

阅读量5k

点赞数

分类专栏：机器学习分类器

本文链接：https://blog.csdn.net/Allyli0022/article/details/49513747

版权

机器学习同时被 2 个专栏收录

11 篇文章 0 订阅

订阅专栏

分类器

6 篇文章 0 订阅

订阅专栏

l 学习映射函数及在行为识别/图像分类中应用的文献（模型与非模型之间存在关联，算法相互采用，没有明确的区分，含仿生学文献）

% 研究重点放到ICA模型及深度学习兼顾稀疏编码

1）稀疏编码（稀疏编码、自动编码、递归编码）：

[1] B. Olshausen and D. Field. Emergence of simple-cell receptive ﬁeld properties by learning a sparse code for natural images. Nature, 1996.

[2] H. Lee, A. Battle, R. Raina, and A. Y. Ng. Efﬁcient sparse coding algorithms. In NIPS, 2007.

[3] B. A. Olshausen. Sparse coding of time-varying natural images. In ICA, 2000.

[4] Dean, T., Corrado, G., Washington, R.: Recursive sparse spatiotemporal coding.In: Proc. IEEE Int. Workshop on Mult. Inf. Proc. and Retr. (2009).

[5] J. Yang, K. Yu, Y. Gong, and T. Huang. Linear spatial pyramid matching using sparse coding for image

classiﬁcation. In CVPR, 2009.

[6] S. Wang, L. Zhang, Y. Liang and Q. Pan.Semi-Coupled Dictionary Learning with Applications to Image Super-Resolution and Photo-Sketch Image Synthesis. in CVPR 2012.

[7] Yan Zhu, Xu Zhao,Yun Fu,Yuncai Liu. Sparse Coding on Local Spatial-temporal Volumes for Human action Recognition.ACCV2010,Part II,LNCS 6493.(上海交大，采用3DHOG特征描述，3DSift稀疏编码未注意)。

2）ICA（ISA）模型：

[1] A. Hyvarinen, J. Hurri, and P. Hoyer. Natural Image Statistics. Springer, 2009.

[2]Alireza Fathi and Greg Mori. Action Recognition by Learning Mid-level Motion Features. IEEE,2008,978-1-4244-2243.

[3] A. Hyvarinen and P. Hoyer. Emergence of phase- and shift-invariant features by decomposition of natural images into independent feature subspaces. Neu. Comp., 2000.

[4] A. Coates, H. Lee, and A. Y. Ng. An analysis of single-layer networks in unsupervised feature learning.

In AISTATS 14, 2011.（该篇采用采用的特征，基于BOW方法不需要检测。形成BOW时采用图像块相似聚类，跟据离BOW距离将图像块特征非线性判决，之后将正副图像以一种稀疏形式表示）

[5] Q. V. Le, W. Zou, S. Y. Yeung, and A. Y. Ng. Learning hierarchical spatio-temporal features for action

recognition with independent subspace analysis. In CVPR, 2011.

[6] Q. V. Le, J. Ngiam, Z. Chen, D. Chia, P. W. Koh, and A. Y. Ng. Tiled convolutional neural networks. In

NIPS, 2010.

[7] M. S. Lewicki and T. J. Sejnowski. Learning overcomplete representations. Neural Computation, 2000.

[8] L. Ma and L. Zhang. Overcomplete topographic independent component analysis. Elsevier, 2008.

[9] A. Krizhevsky. Learning multiple layers of features from tiny images. Technical report, U. Toronto, 2009.

%非分类识别文献，引入copula估计子空间，新特征组合

[10]Nicolas Brunel, Wojciech Pieczynski,Stephane Derrode.Copulas in vectorial hidden markov chains for multicomponent images segmentation.ICASSP’05,Philadelphia,USA,March 19-23,2005.（非识别分类文献，但是涉及到一种算法，对估计子空间很有用，可以引入ICA模型。）

[11] Xiaomei Qu. Feature Extraction by Combining Independent Subspaces Analysis and Copula Techniques. International Conference on system Science and Engineering,2012.

[12] Pietro Berkes, Frank Wood and Jonathan Pillow. Characterizing neural dependencies with copula models. In NIPS, 2008.

[13] Y-Lan Boureau, Jean Ponce, Yann LeCun. A theoretical Analysis of Feature Pooling in Visual Recognition. In Proceedings of the 27’th International Conference on machine Learning, Haifa, Israel,2010.（介绍多样池及概念，可以形成稀疏表示及产生鲁棒性特征）

3）深度学习（与ICA、RBM关联性强，属于多层学习）：

[1] Y. Bengio, P. Lamblin, D. Popovici, and H. Larochelle.Greedy layerwise training of deep networks. In NIPS, 2006.

[2] Alessio Plebe. A model of the response of visual area V2 to combinations of orientations. Network: Computation in Neural Systems, September 2012; 23(3): 105–122.(涉及到模拟人类大脑皮层感知（v1、v2、v3、v4、v5），此类文献多，主要以猴子猫动物实验)

[3] G. Hinton, S. Osindero, and Y. Teh. A fast learning algorithms for deep belief nets. Neu. Comp., 2006

[4] H. Lee, R. Grosse, R. Ranganath, and A. Ng. Convolutional deep belief networks for scalable unsupervised learning of hierarchical representations. In ICML, 2009.

[5]Yann Lecun, Koray Kavukcuoglu, and Clement Farabet. Convolutional Networks and Applications in Vision. In Proc. International Symposium on Circuits and Systems (ISCAS'10), 2010.

[6] Pierre Sermanet, Soumith Chintala and Yann LeCun. Convolutional Neural Networks Applied to House Numbers Digit Classiﬁcation. Computer Vision and Pattern Recognition,2012.

[7] Quoc V. Le. Marc’Aurelio Ranzato. Rajat Monga. Matthieu Devin. Kai Chen. Greg S. Corrado. Jeﬀ Dean. Andrew Y. Ng. Building High-level Features Using Large Scale Unsupervised Learning. the 29’th International Conference on Machine Learning, Edinburgh, Scotland, UK, 2012.

[8] A. Hyvarinen and P. Hoyer. Topographic independent component analysis as a model of v1 organization and receptive ﬁelds. Neu. Comp., 2001

[9]Y. Bengio, P. Lamblin, D. Popovici, and H. Larochelle. Greedy layerwise training of deep networks. In

NIPS, 2007.

[10] Q. V. Le, J. Ngiam, A. Coates, A. Lahiri, B. Prochnow, and A. Y. Ng. On optimization methods for deep learning. In ICML, 2011.

[11] H. Lee, C. Ekanadham, and A. Y. Ng. Sparse deep belief net model for visual area V2. In NIPS, 2008.

[12] G. E. Hinton, S. Osindero, and Y. W. Teh. A fast learning algorithm for deep belief nets. Neural Computation, 2006.

[13] Jarrett, K., Kavukcuoglu, K., Ranzato, M., LeCun, Y.: What is the best multistage architecture for object recognition? In: ICCV. (2009) 2146-2153.

[14] Lee, H., Ekanadham, C., Ng., A.: Sparse deep belief net model for visual area V2.In: NIPS. (2008) 873-880.

[15] Bo Chen .Deep Learning of Invariant Spatio-Temporal Feature from Video.[D].2010.

[16] Jiquan Ngiam, Zhenghao Chen, Pang Wei Koh,Andrew Y.Ng.Learning Deep Energy Models.in Proceedings of the 28’th international Conference on Machine Learning,Bellevue,WA,USA,2011.

%以下（CRBM、SF）这些模型参考，不做重点研究，可借鉴算法。

4）CRBM(文献多，有博士论文)：

[1] G. Hinton. A practical guide to training restricted boltzmann machines. Technical report, U. of Toronto,

2010．

[2] G. Taylor, R. Fergus, Y. Lecun, and C. Bregler. Convolutional learning of spatio-temporal features. In ECCV, 2010.

[3] Norouzi, M., Ranjbar, M., Mori, G.: Stacks of convolutional restricted Boltzmann machines for shift-invariant feature learning. In: CVPR. (2009).

[4] Memisevic, R., Hinton, G.: Learning to represent spatial transformations with factored higher-order Boltzmann machines. Neural Comput 2010.

5）Slow Feature（慢特征学习分析（德国），代表文献）

这种新方法以邻帧图像为基础研究，是一种新思路。

[1] P. Berkes and L. Wiskott. Slow feature analysis yields arich repertoire of complex cell properties. Journal of Vision,2005

——————————————————————————————————————————————————————————————————

机器学习的常用方法，主要分为有监督学习(supervised learning)和无监督学习(unsupervised learning)。监督学习，就是人们常说的分类，通过已有的训练样本（即已知数据以及其对应的输出）去训练得到一个最优模型（这个模型属于某个函数的集合，最优则表示在某个评价准则下是最佳的），再利用这个模型将所有的输入映射为相应的输出，对输出进行简单的判断从而实现分类的目的，也就具有了对未知数据进行分类的能力。在人对事物的认识中，我们从孩子开始就被大人们教授这是鸟啊、那是猪啊、那是房子啊，等等。我们所见到的景物就是输入数据，而大人们对这些景物的判断结果（是房子还是鸟啊）就是相应的输出。当我们见识多了以后，脑子里就慢慢地得到了一些泛化的模型，这就是训练得到的那个（或者那些）函数，从而不需要大人在旁边指点的时候，我们也能分辨的出来哪些是房子，哪些是鸟。监督学习里典型的例子就是KNN、SVM。无监督学习（也有人叫非监督学习，反正都差不多）则是另一种研究的比较多的学习方法，它与监督学习的不同之处，在于我们事先没有任何训练样本，而需要直接对数据进行建模。这听起来似乎有点不可思议，但是在我们自身认识世界的过程中很多处都用到了无监督学习。比如我们去参观一个画展，我们完全对艺术一无所知，但是欣赏完多幅作品之后，我们也能把它们分成不同的派别（比如哪些更朦胧一点，哪些更写实一些，即使我们不知道什么叫做朦胧派，什么叫做写实派，但是至少我们能把他们分为两个类）。无监督学习里典型的例子就是聚类了。聚类的目的在于把相似的东西聚在一起，而我们并不关心这一类是什么。因此，一个聚类算法通常只需要知道如何计算相似度就可以开始工作了。

那么，什么时候应该采用监督学习，什么时候应该采用非监督学习呢？我也是从一次面试的过程中被问到这个问题以后才开始认真地考虑答案。一种非常简单的回答就是从定义入手，如果我们在分类的过程中有训练样本(training data)，则可以考虑用监督学习的方法；如果没有训练样本，则不可能用监督学习的方法。但是事实上，我们在针对一个现实问题进行解答的过程中，即使我们没有现成的训练样本，我们也能够凭借自己的双眼，从待分类的数据中人工标注一些样本，并把他们作为训练样本，这样的话就可以把条件改善，用监督学习的方法来做。当然不得不说的是有时候数据表达的会非常隐蔽，也就是说我们手头的信息不是抽象的形式，而是具体的一大堆数字，这样我们很难凭借人本身对它们简单地进行分类。这个说的好像有点不大明白，举个例子说就是在bag of words 模型的时候，我们利用k-means的方法聚类从而对数据投影，这时候用k-means就是因为我们当前到手的只有一大堆数据，而且是很高维的，当我们想把他们分为50个类的时候，我们已经无力将每个数据标记说这个数应该是哪个类，那个数又应该是哪个类了。所以说遇到这种情况也只有无监督学习能够帮助我们了。那么这么说来，能不能再深入地问下去，如果有训练样本（或者说如果我们可以获得到一些训练数据的话），监督学习就会比无监督学习更合适呢？（照我们单纯地想，有高人教总比自己领悟来的准，来的快吧！）我觉得一般来说，是这样的，但是这要具体看看训练数据的获取。本人在最近课题的研究中，手动标注了大量的训练样本（当然这些样本基本准确了），而且把样本画在特征空间中发现线性可分性非常好，只是在分类面附近总有一些混淆的数据样本，从而用线性分类器进行分类之后这样样本会被误判。然而，如果用混合高斯模型（GMM）来分的话，这些易混淆的点被正确分类的更多了。对这个现象的一个解释，就是不管是训练样本，还是待聚类的数据，并不是所有数据都是相互独立同分布的。换句话说，数据与数据的分布之间存在联系。在我阅读监督学习的大量材料中，大家都没有对训练数据的这一假设（独立同分布）进行说明，直到我阅读到一本书的提示后才恍然大悟。对于不同的场景，正负样本的分布如果会存在偏移（可能是大的偏移，也可能偏移比较小），这样的话用监督学习的效果可能就不如用非监督学习了。

——————————————————————————————————————————————————————————————————

上次我们讨论了基于结果的两类学习。这篇文章我们将关注一些其他方面的学习：监督还是无监督。当训练用例被标记了正确结果的时候，监督学习方式为怎样改进学习给出一个反馈。这类似于教官教导某个Agent，它的行为是否正确。对无监督学习来说这个目标很难实现，因为缺乏事先确定的分类。

·监督学习

监督学习是最常见的分类问题，因为目标往往是让计算机去学习我们已经创建好的分类系统。数字识别再一次成为分类学习的常见样本。更一般地说，对于那些有用的分类系统，和容易判断的分类系统，分类学习都适用。在某些情况下，如果Agent能自行计算分类的话，它（Agent）可能不需要事先给出分类。这将在后面成为无监督学习上下文分类的一个例子。

监督学习是训练神经网络和决策树的最常见技术。这两种技术（神经网络和决策树）高度依赖于事先确定的分类系统给出的信息。对于神经网络来说，分类系统用于判断网络的错误，然后调整网络适应它；对于决策树，分类系统用来判断哪些属性提供了最多的信息，如此一来可以用它解决分类系统的问题。我们将会看到这两者（神经网络和决策树）更多的细节，但在目前，它们用预先确定分类方法的形式来“监督”就足够了。

使用隐马尔科夫模型和贝斯网络的语音识别系统也依赖于某些监督的要素，那通常是为了调节系统的参数以便于最小化给定输入中的错误。

请注意这里提到的一个问题：在分类问题中，学习算法的目标是把给定输入中的错误最小化。这些输入通常被称作“训练集”（原文为training set，译者注），它们是Agent尝试学习的样本。但是，学习训练集表现良好并不一定是件好事。例如，如果我试图教你学习exclusive-or（及逻辑或，译者注），但仅仅给出由一个真和一个假构成的组合，而不把同时为真或为假的组合告诉你，那么根据你学到的规则，你可能对任何问题回答都为真。同样，对于机器学习算法，一个通常的问题是过适合（原文为over-fitting，译者注）数据，以及主要记忆训练集，而不是学习过多的一般分类技术。

你可以这样设想，并不是所有的训练集的输入都分类正确。如果使用的算法有足够强的记忆力，但这显然是“特例”，不适合一般的原则，因此会出现问题。这一点也可能导致过适合。不但要在学习复杂函数时足够强大，而且能产生可概括的结论，寻找这样的算法的确是一个挑战。

·非监督学习

非监督学习看起来非常困难：目标是我们不告诉计算机怎么做，而是让它（计算机）自己去学习怎样做一些事情。非监督学习一般有两种思路。第一种思路是在指导Agent时不为其指定明确的分类，而是在成功时采用某种形式的激励制度。需要注意的是，这类训练通常会置于决策问题的框架里，因为它的目标不是产生一个分类系统，而是做出最大回报的决定。这种思路很好的概括了现实世界，Agent可以对那些正确的行为做出激励，并对其他的行为进行处罚。

强化学习的一些形式常常可以被用于非监督学习，由于没有必然的途径学习影响世界的那些行为的全部信息，因此Agent把它的行为建立在前一次奖惩的基础上。在某种意义上，所有的这些信息都是不必要的，因为通过学习激励函数，Agent不需要任何处理就可以清楚地知道要做什么，因为它（Agent）知道自己采取的每个动作确切的预期收益。对于防止为了计算每一种可能性而进行的大量计算，以及为此消耗的大量时间（即使所有世界状态的变迁概率都已知），这样的做法是非常有益的。另一方面，在尝试出错上，这也是一种非常耗费时间的学习。

不过这一类学习可能会非常强大，因为它假定没有事先分类的样本。在某些情况下，例如，我们的分类方法可能并非最佳选择。在这方面一个突出的例子是Backgammon（西洋双陆棋）游戏，有一系列计算机程序（例如neuro-gammon和TD-gammon）通过非监督学习自己一遍又一遍的玩这个游戏，变得比最强的人类棋手还要出色。这些程序发现的一些原则甚至令双陆棋专家都感到惊讶，并且它们比那些使用预分类样本训练的双陆棋程序工作得更出色。

一种次要的非监督学习类型称之为聚合（原文为clustering，译者注）。这类学习类型的目标不是让效用函数最大化，而是找到训练数据中的近似点。聚合常常能发现那些与假设匹配的相当好的直观分类。例如，基于人口统计的聚合个体可能会在一个群体中形成一个富有的聚合，以及其他的贫穷的聚合。

·总结

非监督学习已经获得了巨大的成功，例如西洋双陆棋程序world-champion calibre以及自动驾驶技术。当有一种为行为赋予权值的简单方法时，它可以成为一项强大的技术。当有足够的数据构成聚类（尽管有时这非常困难），聚合可能会非常有用，特别是一个聚类中关于成员的附加数据由于这些附加的数据可以用于产生更多的结果。

如果有恰当的分类系统（例如疾病处理程序，它一般会在实施自动诊断之后直接决定设计），分类学习也会非常强大，或者当分类是一件非常简单的事情，此时我们非常乐于让计算机为我们进行识别。如果通过算法作出的决定需要输入别的地方，这时分类学习是必要的。否则，对于需要输入的一方来说，计算它的含义将会非常困难。

这两种技术都非常有价值，你需要根据当时的情况决定需要选用哪一种技术——什么类型的问题被解决，解决它需要支出多少时间（通常来说,监督学习和聚合要比强化学习技术更快）,以及是否监督学习更有可能（完成）。

——————————————————————————————————————————————————————————————————

聚类系列：

聚类(序)----监督学习与无监督学习

聚类(1)----混合高斯模型 Gaussian Mixture Model

聚类(2)----层次聚类 Hierarchical Clustering

聚类(3)----谱聚类 Spectral Clustering

--------------------------------

机器学习的常用方法，主要分为有监督学习(supervised learning)和无监督学习(unsupervised learning)。监督学习，就是人们常说的分类，通过已有的训练样本（即已知数据以及其对应的输出）去训练得到一个最优模型（这个模型属于某个函数的集合，最优则表示在某个评价准则下是最佳的），再利用这个模型将所有的输入映射为相应的输出，对输出进行简单的判断从而实现分类的目的，也就具有了对未知数据进行分类的能力。在人对事物的认识中，我们从孩子开始就被大人们教授这是鸟啊、那是猪啊、那是房子啊，等等。我们所见到的景物就是输入数据，而大人们对这些景物的判断结果（是房子还是鸟啊）就是相应的输出。当我们见识多了以后，脑子里就慢慢地得到了一些泛化的模型，这就是训练得到的那个（或者那些）函数，从而不需要大人在旁边指点的时候，我们也能分辨的出来哪些是房子，哪些是鸟。监督学习里典型的例子就是KNN、SVM。无监督学习（也有人叫非监督学习，反正都差不多）则是另一种研究的比较多的学习方法，它与监督学习的不同之处，在于我们事先没有任何训练样本，而需要直接对数据进行建模。这听起来似乎有点不可思议，但是在我们自身认识世界的过程中很多处都用到了无监督学习。比如我们去参观一个画展，我们完全对艺术一无所知，但是欣赏完多幅作品之后，我们也能把它们分成不同的派别（比如哪些更朦胧一点，哪些更写实一些，即使我们不知道什么叫做朦胧派，什么叫做写实派，但是至少我们能把他们分为两个类）。无监督学习里典型的例子就是聚类了。聚类的目的在于把相似的东西聚在一起，而我们并不关心这一类是什么。因此，一个聚类算法通常只需要知道如何计算相似度就可以开始工作了。

那么，什么时候应该采用监督学习，什么时候应该采用非监督学习呢？我也是从一次面试的过程中被问到这个问题以后才开始认真地考虑答案。一种非常简单的回答就是从定义入手，如果我们在分类的过程中有训练样本(training data)，则可以考虑用监督学习的方法；如果没有训练样本，则不可能用监督学习的方法。但是事实上，我们在针对一个现实问题进行解答的过程中，即使我们没有现成的训练样本，我们也能够凭借自己的双眼，从待分类的数据中人工标注一些样本，并把他们作为训练样本，这样的话就可以把条件改善，用监督学习的方法来做。当然不得不说的是有时候数据表达的会非常隐蔽，也就是说我们手头的信息不是抽象的形式，而是具体的一大堆数字，这样我们很难凭借人本身对它们简单地进行分类。这个说的好像有点不大明白，举个例子说就是在bag-of-words模型的时候，我们利用k-means的方法聚类从而对数据投影，这时候用k-means就是因为我们当前到手的只有一大堆数据，而且是很高维的，当我们想把他们分为50个类的时候，我们已经无力将每个数据标记说这个数应该是哪个类，那个数又应该是哪个类了。所以说遇到这种情况也只有无监督学习能够帮助我们了。那么这么说来，能不能再深入地问下去，如果有训练样本（或者说如果我们可以获得到一些训练数据的话），监督学习就会比无监督学习更合适呢？（照我们单纯地想，有高人教总比自己领悟来的准，来的快吧！）我觉得一般来说，是这样的，但是这要具体看看训练数据的获取。本人在最近课题的研究中，手动标注了大量的训练样本（当然这些样本基本准确了），而且把样本画在特征空间中发现线性可分性非常好，只是在分类面附近总有一些混淆的数据样本，从而用线性分类器进行分类之后这样样本会被误判。然而，如果用混合高斯模型(GMM)来分的话，这些易混淆的点被正确分类的更多了。对这个现象的一个解释，就是不管是训练样本，还是待聚类的数据，并不是所有数据都是相互独立同分布的。换句话说，数据与数据的分布之间存在联系。在我阅读监督学习的大量材料中，大家都没有对训练数据的这一假设（独立同分布）进行说明，直到我阅读到一本书的提示后才恍然大悟。对于不同的场景，正负样本的分布如果会存在偏移（可能是大的偏移，也可能偏移比较小），这样的话用监督学习的效果可能就不如用非监督学习了。

——————————————————————————————————————————————————————————————————

AllyLi0224

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
监督学习和无监督学习的详细介绍

l 学习映射函数及在行为识别/图像分类中应用的文献（模型与非模型之间存在关联，算法相互采用，没有明确的区分，含仿生学文献）% 研究重点放到ICA模型及深度学习兼顾稀疏编码1）稀疏编码（稀疏编码、自动编码、递归编码）：[1] B. Olshausen and D. Field. Emergence of simple-cell receptive ﬁeld p
复制链接

扫一扫