1. 计算机视觉
- 计算机视觉 Computer Vision
- 机器视觉 Machine Vison
- 模式识别 Pattern Recognition
- 数字图像处理 Digital Image Processing
2. 计算机视觉的任务
- 图像分类算法
- 目标检测算法
- 图像分割算法
- 图像生成算法
- 目标追踪算法
3. 计算机视觉的两大方向:
-
传统计算机视觉:
- YOLO平台 SOTA:State Of The Art
- 图像分类算法
- 目标检测算法
- 图像分割算法
- 目标追踪算法
- YOLO平台 SOTA:State Of The Art
-
计算机视觉大模型
- 图像生成算法
- diffusion 系列
4. 深度学习的公共框架
- 整体架构:
- end-to-end 端到端的
- feature extraction 特征抽取 -- backbone
- tabular data 表格类数据,特征互相独立 -- 机器学习中的数据
- 全连接网络
- image data 图像类数据,特征之间有2个方向依赖关系 -- 计算机视觉中的数据
- 卷积网络提取特征
- transformer
- sequence data 序列类数据,特征之间有1个方向依赖关系 -- 文本/语音识别中的数据
- 循环神经网络
- transformer
- tabular data 表格类数据,特征互相独立 -- 机器学习中的数据
- classification/regression 分类/回归 -- head
- 全连接网络
- 卷积网络
5. 计算机视觉中的核心概念
- 图像到底是个什么东西?
- 对一个画面进行行和列的采样
- 一个二维矩阵 [H, W]
- 一张图像 [H, W, C]
- 一批图像 [N, C, H, W]
- [8, 3, 256, 256]
- 不同代码实现:
from matplotlib import pyplot as plt
img1 = plt.imread(fname="beauty.jpg")
# [H, W, C] RGB
H, W, C = img1.shape
print(H, W, C)
plt.imshow(X=img1[:H//2, W//2:, 0], cmap="gray")
from PIL import Image
img2 = Image.open(fp="beauty.jpg")
# [W, H]
img2.size
import cv2
# [H, W, C] BGR
img2 = cv2.imread(filename="beauty.jpeg")
cv2.imshow(winname="image", mat=img2)
cv2.waitKey(delay=10000)
cv2.destroyAllWindows()
这段代码最好不要在jupyter notebook中运行,因为会卡死
- 卷积操作:
- convolution 卷积
- 怎么操作?
- 相乘再相加
- 有什么用?
- 不同的卷积核,得到的结果不同!
- 卷积核的不同,处理完之后得到的效果就不同!!!
- 怎么操作?
- convolution 卷积
6. 卷积层:
- 理解卷积操作是如何实现的
- 理解如何定义一个卷积层
- 各个参数的内涵是什么
- 如何模拟一个假数据
- 如何通过卷积层处理一组图像