视觉框架

原博客

基础知识整理

图像

拿到一张图片,视觉程序需要了解的信息有:

  • 宽、高:
    假如一张照片的分辨率为:1920*1080(单位为dpi,全称为 dot per inch),1920 就是照片的宽度,1080 就是图片的高度。
  • 深度:
    这个感觉应该是表示每个像素点可以表示的不同颜色的总数,比如RGB的深度:2^8 * 3 = 768
  • 通道数:
    这个好理解,就是配色源色总数,例如RGB通道数为3
  • 色彩模式:
    如RGB,RGBA,CMYK,位图模式,索引颜色模式,双色调模式,多通道模式
  • more
    图像中的知识点太多,做基本图像处理,了解以上知识个人感觉可以了。等到以后如果做深入研究,或许有机会做更多的学习

视屏

原始视屏就是有序图片序列,其中每张图片即为1帧(frame),压缩后的视频,会采取各种算法减少数据容量,如IPB。

  • 码率:
    单位时间内传送数据的位数,即取样率
  • 帧率:
    每秒传输的帧数(fps: frames per second)
  • 分辨率:
    每帧的像素点数?
  • 清晰度
    实际上不同的清晰度对应不同的分辨率
  • IPB:
    在网络视频流中,并不是把每一帧图片全部发送到客户端来展示,而是传输每一帧的差别数据(IPB),客户端然后对其进行解析,最终补充每一帧完整图片

摄像机

在实际应用当中,基本上都是通过不同种类的摄像机来获取数据,然后发送给服务端(AI Server)进行处理,分类有:

  • 监控摄像机(网络摄像机、模拟摄像机)
  • 行业摄像机(超快动态摄像机、红外摄像机、热成像摄像机)
  • 智能摄像机
  • 工业摄像机

GPU和CPU

对于深度学习,或者处理类似图片的矩阵形式的数据,我想是离不开GPU的。

  • 架构对比


    13298870-23f5cb78faef7e94

    1、上图中,绿色为计算单元,可以看出,CPU的ALU比GPU的少多了
    2、橙红色为存储单元,可以看出,GPU中没有CPU意义上的cache,实际上GPU中的缓存不是为了提高数据交换速度,而是为多线程突服务的
    3、橙黄色为控制单元,实际上CPU中有比较复杂的控制单元,这,可以降低延迟

  • 整体对比


    13298870-2e83c44945481298

    1、cache、local memory(数):CPU > GPU
    2、threads(数):GPU > CPU
    3、registers(数):GPU > CPU
    4、SIMD Unit(数):GPU > CPU
    CPU在设计上,低延迟,可是低吞吐量,CPU的ALU(算数运算单元)虽然少,可是很强大,可以在很少的时钟周期内完成算数计算,或许数量少,就可以任性的减少时钟周期,所以其频率非常高,能够达到1.532 ~ 3 (千兆,10的9次方)。
    大缓存容量、复杂的逻辑控制单元也可以减低延迟。

GPU在设计上,高延迟,可是高吞吐量。GPU的特点是有很多的ALU和很少的cache. 缓存的目的不是保存后面需要访问的数据的,这点和CPU不同,而是为thread提高服务的。如果有很多线程需要访问同一个相同的数据,缓存会合并这些访问,然后再去访问dram(因为需要访问的数据保存在dram中而不是cache里面),获取数据后cache会转发这个数据给对应的线程,这个时候是数据转发的角色。但是由于需要访问dram,自然会带来延时的问题。

  • cuda(compute unified device architecture)
    是显卡厂商NVIDIA推出的运算平台,采用并行计算架构,是GPU能够解决复杂的计算问题。包含了CUDA指令集架构以及GPU内部的并行计算引擎
  • 编程语言和数学基础
    1、Python、C++
    2、线性代数、概率统计、machine learning

参考书和公开课

开源框架

  • caffe
  • TensorFlow
  • torch and maxnet
  • FFmpeg:强大的视屏处理工具
    框架对比图
    13298870-33bef54fce8829b5

深入视觉学习

  • 里程碑式的文献
    1、深度学习做目标检测,RCNN、Fast RCNN、Fater RCNN、SPPNET、SSD和YOLO等模型;
    2、深度学习做目标跟踪,DLT、SO-DLT等等;
    3、对抗网络GAN、CGAN、DCGAN、LAPGAN等等。
  • 文献网站
    arxiv :每天去更新一下别人最新的工作

视觉顶会

  • ICCV:国际计算机视觉大会
  • CVPR:国际计算机视觉与模式识别大会
  • ECCV:欧洲计算机视觉大会

顶刊

  • PAMI:IEEE 模式分析与机器智能杂志
  • IJCV:国际计算机视觉杂志
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值