深度学习学习笔记(一):深度学习在图像和视频的应用

深度学习在图像和视频的应用

一、图像/视频处理

1. 超分辨率问题

超分辨率(Super Resolution),超分辨率问题简称SR问题。
目的:由低分辨率(Low Resolution,LR)图像->高分辨率(High Resolution,HR)清晰图像。

处理方法
1- 传统方法,优化损失函数.
2- 深度学习方法,卷积神经网络.
深度学习的SR研究:开山鼻祖是SRCNN,还有VDSR网络等.

2. 图像去噪

目的:从噪声图像中恢复出原始图像。

去噪方法
1- 传统方法,优化损失函数.
优化目的:恢复出的无噪图像与带噪图像尽可能相似。
why:一般认为带噪声信号的图像主要成分是图像本身信号。
2- 深度学习方法,卷积神经网络.
深度学习的去噪研究:DnCNN、CBDNet等,应对已知噪声强度/盲噪声强度。

3. 图像增强

目的:改善图像的视觉效果、图像质量、丰富信息量,加强图像判读和识别效果。

3.1 弱光照增强

问题:暗光拍照由于光线不足,导致欠曝光或者对比度不足。
解决方法:调整图像的对比度。

两类问题
1.夜景增强,LLNet
2.去雾,DehazeNet
3.2 动态范围增强

4. 质量评价

质量评价方法好坏的标准:是否与人的判断相近。
质量评价的目的:用数学的方法构建模型,使得这个模型能尽可能逼近人眼判别的结果。
质量评价的方法:
1.传统质量评价
2.基于深度学习的质量评价方法,DIQaM/NIMA

二、图像/视频压缩

2.1 传统压缩编码框架

  • 图片压缩编码框架
    JPEG是Joint Photographic Experts Group(联合图像专家组)的缩写,文件后辍名为".jpg"或".jpeg",是最常用的图像文件格式,由一个软件开发联合会组织制定。是有损压缩。
    虽然有损,但其去除的是冗余的图像数据,在获得极高的压缩率的同时能展现十分丰富生动的图像,可以用最少的磁盘空间得到较好的图像品质。
    方法:根据人眼视觉特性剔除图像信息中视觉不敏感得成分,从而实现图像信息的高度压缩。所根据的视觉特性主要为:高频不敏感性和色彩不敏感性。
  • 视频压缩编码框架
    预测编码:
    1、帧内预测编码
    2、帧间预测编码
  • 变换编码
  • 熵编码
  • 环路滤波

2.2 基于深度学习的图像压缩

三、传统的计算机视觉处理

1、早期 的计算机视觉处理

早期的计算机视觉处理的步骤
1- 特征提取全局特征,浅层的简单特征
2- 索引技术穷举索引
3- 相关反馈正/负反馈
4- 重排序按相关度排序

2、中期 的计算机视觉处理
词袋模型

中期的计算机视觉处理的步骤
1- 特征提取提取局部特征,检测器+描述器
2- 向量化对描述器得到的local word进一步处理,聚类去冗余,形成Viscal word
3- 生成词典全体Viscal word(视觉关键词)构建词典
4- 索引技术倒排索引
5- 后处理TF-IDF加权排序,查询扩展

3、深度学习 的计算机视觉处理

  • Why?
    传统方法(人工特征提取+分类器)耗费人力物力,步骤繁琐,耗时。
深度学习 在计算机视觉处理的应用模型
1- 图像分类LeNet5/AlexNet/VGGNet/InceptionNet/ResNet
2- 物体检测RCNN系列/YOLO系列/one-stage系列
3- 图像分割
4- 图像回归
  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值