该阶段详细介绍计算机视觉、注意力机制与Transformer、自然语言处理、语音处理等 AI 核心领域技术,并重点介绍华为开源深度学习框架MindSpore。
共计 54 课时。
第一节:计算机视觉技术概述与图像处理基础 - (3 课时)
- 什么是计算机视觉;计算机视觉技术发展简史;计算机视觉技术的应用领域;计算机视觉技术在人工智能产业中的重要性及作用;
- 什么是图像处理;图像处理常见需求点;图像处理技术分类;图像处理工具介绍;图像的表示与数字化;图像的表示方法;图像数字化过程:采样、量化、编码;基本图处理操作:缩放、旋转、镜像;
- 图像增强:亮度调整、对比度增强;图像滤波:均值滤波、高斯滤波、中值滤波;图像的边缘检测:Sobel、Prewitt、Canny 算子;图像分割:阈值分割、区域分割、边缘分割;
- 图像二值化:全局二值化、自适应二值化;形态学图像处理:腐蚀、膨胀、开操作、闭操作;形态学应用:图像去除噪声、图像分割;
第二节:图像的特征提取与描述 - (3 课时)
- 关键点检测:关键点的概念与特征、角点、边缘点;常见的关键点检测算法:Harris 角点检测、Shi-Tomasi 角点检测;图像的局部特征与全局特征;
- 特征向量的表示与匹配:特征向量的表示方法(向量、直方图、直方图梯度);特征向量的相似度度量方法(欧氏距离、汉明距离、余弦相似度);特征匹配算法(最近邻匹配、RANSAC 算法);
第三节:图像分类与目标(对象)检测 - (3 课时)
- 什么是图像分类;分类任务的定义与实施流程;基本图像分类器介绍:SVM、决策树、神经网络;使用深度学习框架进行图像分类任务;
- 对象检测基础概念;对象检测任务的定义及实施流程;基于滑动窗口的方法