一、深度学习的基础
图像分类:计算视觉最重要的核心任务之一。包括:线性分类器、正则化和优化、神经网络。
二、感知与理解视觉世界
任务:超过了图像分类,包括了Semantic Segmentation: 语义分割、 Object Detection: 目标检测、 Instance Segmentation: 实例分割、视频分类、可视化与理解 、多模态视频理解
模型:超过了多层感知机,包括了CNN、RNN、Transformer。
三、生成与交互式视觉智能
超越了2D识别:自监督学习、生成模型(文字生成、风格转换)、3D视觉、具身智能
四、以人为中心的应用与影响
可选的教材资源
- 《Deep Learning》
- 作者:Goodfellow、Bengio 和 Courville
- 这里有一个免费版本Deep Learning
- 《深度学习的数学》
- 第5、6、7章对理解向量微积分和连续优化很有帮助
- 免费在线版本https://mml-book.github.io/book/mml-book.pdf
- 《深入深度学习》
- 一本基于NumPy接口的交互式深度学习书,包含代码、数学和讨论
- 免费在线版本Dive into Deep Learning — Dive into Deep Learning 1.0.3 documentation
学习目标:
1、将计算机视觉应用形式化为任务
为与视觉相关的问题形式化输入和输出
了解培训模型所需的数据和计算要求
2、开发和训练视觉模型
学习编码、调试和训练卷积神经网络的方法。
学习如何使用诸如PyTorch和TensorFlow之类的软件框架
3、了解该领域的现状和发展方向
过去0-5年间有哪些新的研究成果?
存在哪些开放的研究挑战?
在部署之前应该考虑哪些伦理和社会因素?
CS231n: 计算机视觉的深度学习
- 深度学习基础知识(讲座2-4)
- 感知和理解视觉世界(讲座5-12)
- 重构和与视觉世界交互(讲座13-16)
- 以人为中心的人工智能(讲座17-18)
学习安排: