到底什么是机器学习？-CSDN博客

本文链接：https://blog.csdn.net/2301_81067823/article/details/141106596

视觉领域广泛使用的专业工具是ConvNets，这一领域的创立者包括日本学者福岛·邦彦（Kunihiko Fukushima），以及法国计算机科学家杨立昆（Yann LeCun）。

对外行人来说，视觉识别繁复的算法过程遮蔽了其中包含的技术思想，米歇尔将其“拎出来”展现给读者：所谓视觉识别，无非是训练出某种算法，使得机器可以利用这种算法来识别和命名它所“看到”的世界。
视觉识别的工作过程被分为两个步骤：

第一步：

给机器注入一定量的已知素材，比如包含猫、狗等事物的图片信息，这些信息在机器“眼里”无非是细碎的小方格——像素。通过对机器进行大量的训练，让其把这些图片中所包含的“特征”一一抽取出来。
面对一个不知道其内部构造的对象，要想猜测出其内部构造具备哪些特征，这一课题在“信号处理”这一学科中已经有长足的进展，最著名的方法就是所谓“卷积变换”，也称傅立叶变换。这一概念由法国数学家傅立叶提出，傅立叶对现代工程技术最大的贡献就在于，他发现可以通过傅立叶变换将对象的时域过程转换成方便计算的频域过程。这么说令人一头雾水。下面为帮助读者理解这一过程，我将提供一些尽可能通俗易懂的线索。
在控制论创始人诺伯特·维纳（Nobert Wiener）将“反馈”的概念引入系统控制之前，电子工程正面临大量的信号处理过程。我们可以把信号处理问题，理解成一个输入信号经过某个信号装置，产生特定输出的过程。工程师面临的问题是：在不知道信号装置本身的详细信息的前提下，如何通过输入特定的信号序列刺激信号装置产生特定的输出，从而根据这一特定的输出信号序列，推测出信号装置的特征？
举个例子：假设有一个黑箱，数学上用一种函数来表示黑箱的特征，这种函数可称为特征函数，你若想知道这个黑箱的特征，可以往黑箱里输入一个信号序列（输入函数），然后观测黑箱在这个输入函数的刺激下，产生的输出函数有什么表现。
傅立叶的伟大思想有两个：

一个是傅立叶级数，另一个是傅立叶变换，前者是后者的数学基础。傅立叶的洞见在于：任何一个周期函数，都可以表示为一个包含正弦与余弦函数的无穷级数之和（三角级数）。这一出现于1806—1822年间的伟大思想，从形式上看其实是泰勒级数（1715年提出）展开式在工程领域的应用。对于理工科同学来说，当第一次见到某个函数在一定条件下可以展开为该函数的一系列不同阶次导数之和的时候，会顿时领悟到数学的奇妙。
通俗地说，泰勒级数在一定条件下，总可以把某个函数展开成一个无穷级数。这样就从理论上找到了表示任意一个函数的可能性：将函数表示为一个包含无穷多项的级数，如果做近似处理，只需取这个级数的前几项就够用了。
那么，什么叫“卷积”呢？简单来说，就是一个黑箱的输出函数等于输入函数和这个黑箱特征函数的卷积。你不必管卷积的数学过程，只需要理解这一点就够了：卷积就是告诉我们，一个黑箱的输出信号（输出函数）与输入信号（输入函数）及这个黑箱自身的特征函数有关。在已知输入函数和特征函数时，求解输出函数的过程，叫作“求卷积”，实际上就是计算傅立叶积分的过程。
傅立叶变换的美妙之处在于：它把这一几乎不可能计算的积分求解过程，转换成两个特定函数的乘积。稍微专业一点的说法是：将对一个函数求解其微分方程的过程，转化为求解其三角级数的傅立叶积分的过程。经过这一变换，立刻让另一个问题得到了解决：如何从特定的输入函数和观测到的输出函数推算黑箱的特征函数？既然傅立叶变换将难解的积分问题转化为乘法，那问题就迎刃而解了。根据输入函数和输出函数求解黑箱的特征函数，无非是傅立叶变换的逆运算而已，你也可以把它理解成一次除法运算。
傅立叶变换让电子工程进行波形分析、对象特征函数提取成为可能。进而，傅立叶变换被提出150年后，成了今天人工智能学习算法的基础，即提供了以黑箱的视角，推测目标对象的特征函数的可能路径。
由此来看，人工智能在视觉系统上的应用，以及一切所谓深度学习（deep learning）算法，从数学角度上看，无非是使用20世纪七八十年代的多层神经网络（multilayer neural network），通过傅立叶变换来求解对象的特征方程的过程。
人工智能应用ConvNets分为两个过程：第一个过程是猜测对象的特征函数，也就是为对象建模的过程（识别）；第二个过程则是根据对象的输入-输出响应序列，进一步调节对象参数的过程，这一过程也是“学习”的内在含义。也就是说，做卷积分析，就是面对一个不知其内部构造如何的对象，通过输入一个已知的函数，观察输出函数，最终给出对目标对象内部构造的一个猜测。
在应用深度学习算法的时候，人们通常会将数据集分为“训练集”和“测试集”两个部分：前一个部分的数据集，用来做猜测，猜测对象是什么东西；后一个部分则用以对在训练集上取得的成果进行验证并优化相关参数，以便更准确地适应不同形态的对象。
深度学习又分为监督学习和无监督学习两种。监督学习，事实上就是通过人机交互，明确告诉算法猜对了还是猜错了。这种学习过程需要人机交互，也需要明确的关于对象的先验知识，其应用场合是受限的，且效率低下。无监督学习则是需要学习机自行判断结果是否恰当，进而优化判别参数。比如生成式对抗网络（GAN）应用的就是无监督学习，它可以根据此前的学习结果，构造出全新的模式（全新的猫或者狗），来拓展对象认知的边界。当然，无监督学习仍然需要人为的干预，因为说到底，学习算法并不“认识”这个世界。
从对计算机视觉领域人工智能的分析可以看出：目前，强大的人工智能依然在练习认识这个世界，认识自己的工作，而其所仰仗的无非是两样东西——强大的算力（比如神经网络可以做到上百层，过去只能做到几层）、傅立叶分析。归根到底，对于世界究竟是什么样的，机器自己是没有任何真实的感知的，依然需要人的干预和解释。
了解当下人工智能非凡表现的技术背景，可以让非专业读者也能把握住技术的“本领”究竟位于何处。作为控制论创始人的诺伯特·维纳曾这样说：“我们最好非常确信，给机器置入的目的正是我们真正想要的目的。”也就是说，机器的任何表现都先天地面临一个重要的束缚，而这种束缚恰恰来自人，是人在教育机器这个“孩子”，是人在给这个“孩子”注入灵魂。
然而，人给机器吹一口仙气儿，机器就有灵魂了吗？问题恐怕没这么简单。