深度学习在图像和视频的应用
文章目录
一、图像/视频处理
1. 超分辨率问题
超分辨率(Super Resolution),超分辨率问题简称SR问题。
目的:由低分辨率(Low Resolution,LR)图像->高分辨率(High Resolution,HR)清晰图像。
处理方法 |
---|
1- 传统方法,优化损失函数. |
2- 深度学习方法,卷积神经网络. |
深度学习的SR研究:开山鼻祖是SRCNN,还有VDSR网络等. |
2. 图像去噪
目的:从噪声图像中恢复出原始图像。
去噪方法 |
---|
1- 传统方法,优化损失函数. 优化目的:恢复出的无噪图像与带噪图像尽可能相似。 why:一般认为带噪声信号的图像主要成分是图像本身信号。 |
2- 深度学习方法,卷积神经网络. |
深度学习的去噪研究:DnCNN、CBDNet等,应对已知噪声强度/盲噪声强度。 |
3. 图像增强
目的:改善图像的视觉效果、图像质量、丰富信息量,加强图像判读和识别效果。
3.1 弱光照增强
问题:暗光拍照由于光线不足,导致欠曝光或者对比度不足。
解决方法:调整图像的对比度。
两类问题 |
---|
1.夜景增强,LLNet |
2.去雾,DehazeNet |
3.2 动态范围增强
4. 质量评价
质量评价方法好坏的标准:是否与人的判断相近。
质量评价的目的:用数学的方法构建模型,使得这个模型能尽可能逼近人眼判别的结果。
质量评价的方法:
1.传统质量评价
2.基于深度学习的质量评价方法,DIQaM/NIMA
二、图像/视频压缩
2.1 传统压缩编码框架
- 图片压缩编码框架
JPEG是Joint Photographic Experts Group(联合图像专家组)的缩写,文件后辍名为".jpg"或".jpeg",是最常用的图像文件格式,由一个软件开发联合会组织制定。是有损压缩。
虽然有损,但其去除的是冗余的图像数据,在获得极高的压缩率的同时能展现十分丰富生动的图像,可以用最少的磁盘空间得到较好的图像品质。
方法:根据人眼视觉特性剔除图像信息中视觉不敏感得成分,从而实现图像信息的高度压缩。所根据的视觉特性主要为:高频不敏感性和色彩不敏感性。 - 视频压缩编码框架
预测编码:
1、帧内预测编码
2、帧间预测编码 - 变换编码
- 熵编码
- 环路滤波
2.2 基于深度学习的图像压缩
三、传统的计算机视觉处理
1、早期 的计算机视觉处理
早期的计算机视觉处理的步骤 | |
---|---|
1- 特征提取 | 全局特征,浅层的简单特征 |
2- 索引技术 | 穷举索引 |
3- 相关反馈 | 正/负反馈 |
4- 重排序 | 按相关度排序 |
2、中期 的计算机视觉处理
词袋模型
中期的计算机视觉处理的步骤 | |
---|---|
1- 特征提取 | 提取局部特征,检测器+描述器 |
2- 向量化 | 对描述器得到的local word进一步处理,聚类去冗余,形成Viscal word |
3- 生成词典 | 全体Viscal word(视觉关键词)构建词典 |
4- 索引技术 | 倒排索引 |
5- 后处理 | TF-IDF加权排序,查询扩展 |
3、深度学习 的计算机视觉处理
- Why?
传统方法(人工特征提取+分类器)耗费人力物力,步骤繁琐,耗时。
深度学习 在计算机视觉处理的应用 | 模型 |
---|---|
1- 图像分类 | LeNet5/AlexNet/VGGNet/InceptionNet/ResNet |
2- 物体检测 | RCNN系列/YOLO系列/one-stage系列 |
3- 图像分割 | |
4- 图像回归 |