Python深度学习实践-基于PyTorch

办不了

已于 2024-03-07 14:41:01 修改

阅读量2k

点赞数 27

文章标签： python 深度学习 pytorch

于 2024-03-03 16:19:10 首次发布

本文链接：https://blog.csdn.net/2201_75891968/article/details/136431435

版权

1.Model-Based VS Model-Free

深度学习简介

深度学习是机器学习领域中的一个研究方向，它通过学习样本数据的内在规律和表示层次，使机器具有分析学习能力。

深度学习的核心在于使用深层神经网络来模拟人脑处理信息的方式，这些网络能够自动学习和提取数据的高层次特征。

1.1计算机视觉

1.1.1定义

计算机视觉是一门研究如何使机器“看”的科学，它涉及到使用摄像机和电脑代替人眼对目标进行识别、跟踪和测量等任务。

计算机视觉是人工智能领域的一个重要分支，它的核心目标是让机器能够通过图像或视频数据来理解和解释现实世界

1.1.2计算机视觉基本任务

计算机视觉的基本任务主要可以概括为：

图像分类（Image Classification）：这是计算机视觉中最基础的任务之一，它的目的是识别出图像中的主要物体属于哪个类别。这通常涉及到对整个图像的全局描述和特征学习，然后使用分类器来确定图像中是否存在某个特定的物体或场景。
目标定位（Object Localization）：与图像分类不同，目标定位不仅要识别出图像中的物体是什么，还要确定其在图像中的具体位置。这通常需要更精细的特征描述和定位算法。
目标检测（Object Detection）：目标检测的任务是在图像中识别并定位多个目标。这比单一的目标定位更加复杂，因为它需要在一幅图像中同时识别和定位多个物体。
目标跟踪（Object Tracking）：在视频序列中追踪一个或多个目标物体的移动轨迹。这要求系统能够持续地识别同一目标，即使在目标被遮挡或光线变化的情况下也是如此。
语义分割（Semantic Segmentation）：将图像中的每个像素点分配到一个类别中，用于理解图像中各个部分的含义。这与实例分割不同的是，语义分割不考虑同一类别的不同实例之间的区分。
实例分割（Instance Segmentation）：结合了目标检测和语义分割的任务，它不仅需要识别图像中的各个物体，并且还需要区分同一类别中不同的个体实例，并对其进行精确的像素级分割。

1.1.3计算机视觉传统方法

在深度学习算法出现之前，视觉算法大致可以分为以下5个步骤:特征感知、图像预处理、特征提取、特征筛选、推理预测与识别。

缺点
1.缺乏对特征的重视
2.图像特征提取需要人力
3.依赖特征算子

成功例子
1.指纹识别算法
2.基于Haar的人脸检测算法
3.基于HOG特征的物体检测

1.1.4现代深度学习

计算机视觉里经常使用的卷积神经网络(Conventional Neural Network，CNN)，是一种比较精准的对人脑的模拟。人脑在识别图片的过程中，并不是同时对整张图片进行识别，而是先感知图片的局部特征，之后将局部特征综合起来再得到图片的全局信息。卷积神经网络模拟了这一过程，其卷积层(Convolution，Conv)通常是堆叠的。低层的卷积层可以提取到图片的局部特征，例如角、边缘、线条等;高层的卷积层能够从低层的卷积层中学到更复杂的特征，从而实现图片的分类和识别。
卷积就是指两个函数之间的相互关系。在计算机视觉里面，可以把卷积当作一个抽象的过程，就是把小区域内的信息统计、抽象出来。
池化过程在一般卷积过程后。池化（pooling）的本质，其实就是采样。Pooling 对于输入的 Feature Map，选择某种方式对其进行降维压缩，以加快运算速度。

池化层用于降低特征图的空间分辨率，并增强模型对输入图像的平移不变性和鲁棒性。常用的池化方式包括最大池化和平均池化。最大池化的操作是在一个滑动窗口中取最大值作为输出，平均池化的操作是在一个滑动窗口中取平均值作为输出。

池化的作用：

（1）保留主要特征的同时减少参数和计算量，防止过拟合。

（2）invariance(不变性)，这种不变性包括translation(平移)，rotation(旋转)，scale(尺度)。

LeNe网络