用OpenCL实现HEVC中ME模块的测试数据分析

使用opencl来实现编码算法中运动搜索模块! 下面测试数据时在GTX570上的测试结果: LCU为32x32, 100帧720P, CPU上纯C算法使用搜索时间是67s, GPU上是0.915s LCU为16x16, CPU 是76.8s,   GPU上是1.6s LCU为8x8, CPU 是82.5s,   GPU上是4.2s     同样的程序, CPU改为SSE实现, G...
阅读(4094) 评论(3)

最近很忙!更新下近况!

最近很忙!更新下近况!     HEVC研发一期基本接触, 也早已投入商用了!     目前正在使用opencl 来进一步加速HEVC编码!     CPU+GPU编码可能还有很长的路要走, 但是前途无限啊!...
阅读(2648) 评论(4)

矩阵转置的SSE汇编优化艺术以及ARM cortext 汇编优化

平时我们做图像处理或者视频处理, 很多地方会用到矩阵转置: 比如: DCT变换, 图像旋转, 图像滤波, 以及一些数据的内存行和列的交换等, 会大量使用转置这个动作. 然而由于数据量很大,处理速度很慢!如何来提高处理速度呢? 下面看看分析:  HEVC中有个地方是如下这样实现(直接行和列对应的位置交换): Pel tmp; for (k=0;k<blkSize...
阅读(5647) 评论(6)

再谈异构计算CPU+GPU(APU)

再谈异构计算CPU+GPU 异构计算的英文名称是Heterogeneous computing,主要是指使用不同类型指令集和体系架构的计算单元组成系统的计算方式。常见的计算单元类别包括CPU、GPU等协处理器、DSP、ASIC、FPGA等。我们常说的并行计算正是异构计算中的重要组成部分异构计算近年来得到更多关注,主要是因为通过提升CPU时钟频率和内核数量而提高计算能力的传统方式遇到了散热和能...
阅读(2634) 评论(1)

微处理器的两种结构比较--DSP, ARM, GCPU

微处理器的两种结构比较--DSP, ARM, GCPU  冯·诺依曼结构 VS 哈佛结构 1、冯·诺依曼结构   冯·诺依曼结构又称作普林斯顿体系结构(Princetionarchitecture)。   1945年,冯·诺依曼首先提出了“存储程序”的概念和二进制原理,后来,人们把利用这种概念和原理设计的电子计算机系统统称为“冯·诺依曼型结构”计算机。冯·诺依曼结构的处理器使用同一个存...
阅读(3386) 评论(0)

RISC、CISC、 SIMD、FPU、MMX、SSE、SSEX、AVX、3D Now以及DSP、ARM的Neon简介

CPU的指令集从主流的体系结构上分为精简指令集和复杂指令集,而在普通的计算机处理器基本上是使用的复杂指令集。在计算机早期的发展过程中,CPU中的指令集是没有划分类型的,而是都将各种程序需要相配合的指令集成到CPU中,但是随着科技的进步,计算机的功能也越来越强大,计算机内部的元件也越来越多,而且越来越复杂,CPU的指令也相应的变得十分复杂,而在使用过程中,并不是每一条指令都要完全被执行,在技术人员的...
阅读(7154) 评论(0)

开博首篇

开博首篇     经过这么多年在IT界发展,个人编程技能和音视频的相关知识也日益深厚,发现很多东西也是可以记录下来,方便自己和大家查看,分享项目经验和人生经历,毕竟有些事情或者经验教训,如果不及时记录下来,这些很有价值的东西会随着时间的增长慢慢的从记忆中消失!         本博客主要关注:     1. 各种视频压缩标准(MPEG2, MPEG4, H261/2/3/4,X264...
阅读(2825) 评论(3)
    个人资料
    • 访问:414288次
    • 积分:4560
    • 等级:
    • 排名:第7105名
    • 原创:83篇
    • 转载:3篇
    • 译文:1篇
    • 评论:191条
    博客专栏
    最新评论