图像识别实际目标—— 让计算机将语义概念相似的的图像划分为同一类别
传统图像识别技术
全局特征:原图片——向量空间映射——向量表示
全局特征提取:用全局的视觉底层特性统计量表述图像
- 颜色特征
- 形状特征
- 纹理特征
特征变换:提高特征表示性能
- 中心化
- 归一化
问题:全局特征丢掉了图像细节
局部特征:图像区块的向量
传统视觉任务面临的挑战—— 语义鸿沟现象 (图像的底层视觉特性和高层语义概念之间的鸿沟)
深度学习在图像领域的应用
- 图片检索
- 图片描述
- 图片着色
- 识别异常的肿瘤或者癌细胞
图像识别为什么使用深度学习:深度学习模仿人类的视觉系统
- 视感觉阶段-信息采集
- 视知觉阶段-信息认知
目标检测
- 分类
- 定位
- 目标检测
图像分割
图像分析任务
- 图像分类
- 目标定位
- 语义分割
- 实际分割
图像分割分类
- 语义分割
- 实例分割
- 全景分割
图像分割应用
- 自动驾驶
- 医学诊断
像素级图像生成任务
超分辨率:将低分辨率图像转换成高分辨率图像
分类
- 单幅图像
- 多帧视频
- 有监督学习
- 无监督学习
- 特定应用领域
应用场景
- 数字高清
- 安防监控
- 医学影像
- 图像分析
- 图像压缩
- 视频复原
风格转换:图像到图像的翻译
图像修复:填补图像缺失的像素
图像上色:灰度图像2RGB彩色图像
分类
- 全自动图像上色
- 交互式图像上色
CNN
卷积层
- input image * kernel(卷积核) = feature map(特征映射层)
- feature maps * kernel = feature map
- feature maps * n kernel = n feature maps
注:*为卷积操作
池化层
通过下采样缩减feature map尺度。常用max pooling和average pooling