内容
使用卷积神经网络:图像分类,目标检测,图像分割,图像描述,图像生成
深度网络结构:全连接,卷积,循环,变分自编码,生成对抗GAN
共计15课,每课约1h30m
- 介绍
- 图像分类任务介绍
- 线性分类器
- 全连接神经网络
- 卷积&图像去噪&边缘提取
- 纹理表示
- 卷积神经网络
- 经典网络分析
- 图像分割
- 目标检测
- 可视化
- 生成模型VAE
- 生成模型GAN
- GAN论文分析
应用
- 视频和图像处理:归类,优化
- 摄像机:足球门线处理
- 监控:车牌,人脸识别
- 医学:核磁共振片子自动识别疾病
- 导弹:GPS精确,红外/雷达扫描成像
- 气象:星云图像预测
计算机视觉相关学科
- 认知科学,神经科学:为计算机视觉提供方法
- 算法理论:实现模型的基础工具,数据结构
- 系统结构:系统设计的能力
- 机器学习:算法基础,从机器中找到规律进行预测
- 光学传感器:计算机视觉的输入,元器件
- 图像处理:输入和输出都是图像,中间层对图像进行优化处理,如去噪等,计算机视觉的输入也是图像,但输出是语义标签,包含的三维场景的结构信息
- 信息检索:网上的资源管理
- 自然语言:看图说话,Speech语音识别,NLP文本识别
- 机器人:机器理解环境,然后决策,然后交互
斯坦福大学相关课程
- CS231a:计算机视觉中的重要研究方向,输入图像,输出三维重建(B站有资源)
- CS231n:12年之后在图像识别领域中的问题,卷积神经网络和深度学习与计算机视觉的关系(B站有资源,LiFeifei)
计算机视觉
- 图像/视频
- 感知设备/传感器(眼睛--摄像头)
- 解释器(大脑--计算机)
- 解释(语言--解析)
目标:
- 跨越语义鸿沟,建立像素到语义的映射,即机器看到的是图像中的数据矩阵,从数据中推导出概念
运动视盲,图像分割,利用上下文感知,注意力机制,图像增强
国际顶级会议:
- ICCV:两年一次,最佳论文马尔奖
- CVPR
大卫马尔提出问题层次:
- 计算理论:计算的目的是什么?该问题的已知或可以施加的约束是什么?
- 表达和算法:输入、输出和中间信息是如何表达的?使用哪些算法来计算所期望的结果?
- 硬件实现:表达和算法是如何映射到实际硬件即生物视觉系统或特殊的硅片上的?相反的,硬件的约束怎样才能用于知道表达和算法的选择?(随着计算机视觉中使用图形芯片和多核结构日益增长,这个问题很重要)
大卫马尔提出视觉表达三阶段:
- 边缘图2D:边缘信息
- 理解边缘群组2.5D:理解边缘是什么,由边缘信息组织成有语义概念的形体
- 三维模型3D:由形体去推测图像中的真实物体
理解图像中包含的信息:
- 提取三维场景的结构信息SLAM
- 理解语义概念
研究进展
- alphago是在有限的时间内做了快速搜索的事情
- 动画:由人到卡通模型(3D建模师),运动捕捉技术
- 三维建模:给一个图像建立一个三维模型
- 摄影:人脸检测
- 生物识别:虹膜识别,指纹识别(终止/转弯/分叉等细节点匹配空间信息)
- 光学字符识别:车牌,手写字母
- 谷歌地图:对街景牌进行识别
- 家用机器人:扫地机器人(三维重构)
- 计算机视觉与视觉搜索:手机拍照识别场景,服饰识别
- 穿戴设备:智能眼镜
- 无人驾驶:识别道路和物体
- 新零售
- 人机交互:VR
- 增强现实:把虚拟场景叠加到真实的情况中,如找比卡丘
- 机器人及太空探索:全景拼接,三维地形建模,障碍物检测,位置跟踪
- 医学图像
- 气象学:根据云的状态判断气候
- 导弹:GPS精确,红外/雷达扫描成像