卷积神经网络 + 机器视觉： L1_Convolutional Neural Network (斯坦福CS231n）

最新推荐文章于 2023-08-09 03:44:51 发布

CHUNLIN GO

最新推荐文章于 2023-08-09 03:44:51 发布

阅读量681

点赞数

分类专栏： Stanford 文章标签： Stanford

本文链接：https://blog.csdn.net/Kuo_Jun_Lin/article/details/80429093

版权

Stanford 专栏收录该内容

12 篇文章 2 订阅

订阅专栏

完整的视频课堂链接如下：

https://www.youtube.com/playlist?list=PL3FW7Lu3i5JvHM8ljYj-zLfQRF3EO8sYv

完整的视频课堂投影片连接：

http://cs231n.stanford.edu/slides/2017/cs231n_2017_lecture1.pdf

预先需要具备的技能有：

熟练掌握 Python，且一定程度熟悉 C 与 C++，课程全程使用 Python，内容会介绍到一些用 C++写的深度学习库。
大学微积分 & 线性代数知识掌握
一定程度 CS229 机器学习课程里面的知识水平，计算代价函数，使用微分求极小值作为优化手段的过程。

到了2017年的时候，大约有80%人类所产生出来的数据资料是用图片的方式存在，已经是总体资料的大宗。但是对于电脑而言，这些图片与影像资料却还没办法被电脑好好的分析与处理，更别说是从中识别与归纳规律。机器视觉是所有领域的中心，不论在哪个领域都涵盖了极为庞大的知识量储备等待人们的挖掘。

在一开始地球上动物发展阶段，大家都是没有眼睛的这个感官器的，他们靠的是周边飘过自己的东西作为食物为生。然而大约在五亿四千万年前故事发生了变化，第一批的生物开始“长眼”了！也因为这样，世界运行的规则被迅速的打破，他们开始了捕猎与被捕猎，从环境里产生更为鲜明的竞争关系，而大脑的复杂度也就由此开始有了明显的提升，为了处理多元且复杂的图像信息，只有复杂的系统才能够适应新的竞争环境。

因此，基于种种重复的历史发展轨迹，我们相信类似的事情也会发生在电脑世界里，最初的机器视觉研究开始于1959年，发展至今终于在CNN的方法应用下有了显著图像信息分析的突破。

技术的发展轨迹：

block world: 利用色块的不同描边，再把边上点阵化转换成数据点被记录在电脑中
基于描出来的边，利用颜色的梯度差，模拟出 3D结构，多了一个维度的信息后，大幅的提升了辨别的精度，也成为深度学习框架出来之前的主流方法
两个方法于1970年代被推出：Generalized Cylinder 和 Pictorial Structure，把动物变成“筷子人”的形式表现，并标上像是关节一般的节点，由这些连接点的组合方式判断图形的种类
到了1980年代，已经有办法基于一张图片，完整的勾勒出每个不同物体的轮廓（即使是在物体彼此交叠的情况下）
于1990年代出现了 Normalized Cut，计算机不需要理解里面的物体是什么，但是它可以让每个同类意义的东西用色块的方式区隔开
2000年开始，研究方向到了试着在多个不同的图片中分辨出同一个东西。
数位相机在2005年开始蓬勃发展，提升了图像质量，学者试着在图片里面放上拟合图片内物件轮廓的向量针，并于2009年左右开始可以在图片里面框出东西的所在位置。
Convolutional Neural Network在2012年被重磅推出，在图像识别方面大幅甩开了第二名的准确率和效率，并且可以辨识超过千种物体。

其实CNN在1998年的时候，模型概念就已经被推出，但是苦于当时的电脑运算速度的低下，没办法有效的套用此方法，直到15年后，这个方法才得以绽放光芒。

课程的中心思想：