多媒体表示、描述、编码以及通信的相关规定和标准课程总结

  • 时间:2016.10.11-2016. 11.3
  • 注意关注会议

机构

  • ITU(国际电信联盟)

  • MPEG: Moving Picture Experts Group,动态图像专家组, 是ISO(International Standardization Organization,国际标准化组织)与IEC(International Electrotechnical Commission,国际电工委员会)于1988年成立的专门针对运动图像和语音压缩制定国际标准的组织。每年举办三次会议。

  • 3GPP: 3GPP的目标是实现由2G网络到3G网络的平滑过渡,保证未来技术的后向兼容性,支持轻松建网及系统间的漫游和兼容性。 其职能: 3GPP主要是制订以GSM核心网为基础,UTRA(FDD为W-CDMA技术,TDD为TD-CDMA技术)为无线接口的第三代技术规范。

标准

MPEG标准:

  • MPEG-1/1993:11172,VCD
  • MPEG-2/1995:13818,DVD
  • MPEG-4/1999:.mp4格式的视频,目前仍在使用
  • MPEG-4 AAC/2003 /H.264
  • MPEG-7/2001:15938,检索标准,较老了
  • HEVC(2013)/H.265
  • MPEG-21

Dolby AC3标准

AVS标准

两种向量差值的表示:

  • 欧氏距离:|F1-F2|^2; 欧几里得度量(euclidean metric)(也称欧氏距离)是一个通常采用的距离定义,指在m维空间中两个点之间的真实距离,或者向量的自然长度(即该点到原点的距离)。在二维和三维空间中的欧氏距离就是两点之间的实际距离。

  • 马氏距离: 马氏距离(Mahalanobis distance)是由印度统计学家马哈拉诺比斯(P. C. Mahalanobis)提出的,表示数据的协方差距离。它是一种有效的计算两个未知样本集的相似度的方法。与欧氏距离不同的是它考虑到各种特性之间的联系(例如:一条关于身高的信息会带来一条关于体重的信息,因为两者是有关联的)并且是尺度无关的(scale-invariant),即独立于测量尺度。对于一个均值为μ,协方差矩阵为Σ的多变量向量,其马氏距离为(x-μ)’Σ^(-1)(x-μ)。

JPEG2000 图像检索

问题:描述、匹配、视角问题、手机搜索

拍照过程(信息有损失):

  • 3D——>2D;

  • 成像输入——>摄像头——>去噪——>对应RGB不同的通道对图像采样——>DSP处理——>输出

描述:

Globle Feature:
  • 颜色
  • 结构
  • 轮廓
Local Feature :
  • keypoint(特征点、关键点)
  • Interesting content
  • precise localization
  • repeatable detection under variations of scale rotation(旋转、尺度等变换可重复检测)

SIFT

SIFT概念:

  • 尺度不变特征变换(Scale-invariant feature transform,SIFT),是用于图像处理领域的一种描述。

  • 这种描述具有尺度不变性,可在图像中检测出关键点,是一种局部特征描述子。

    • keypoint(特征点、关键点)
    • Interesting content
    • precise localization
    • repeatable detection under variations of scale rotation(旋转、尺度等变换可重复检测)
  • 该方法于1999年由David Lowe首先发表于计算机视觉国际会议(International Conference on Computer Vision,ICCV),2004年再次经David Lowe整理完善后发表于International journal of computer vision(IJCV)。截止2014年8月,该论文单篇被引次数达25000余次。

SIFT实现方法:

  • 金字塔形状分解(pyramids);逐级检测

  • 尺度空间(scale space);DOG method

仿射(Affin Transform, AT)

包括:旋转、倾斜、平移、缩放

第二课

MPEG-1

  • CD11172-1,音频(A、B、C、D、E、F、G)

  • 帧同步:CD11172-2,视频。

  • 注意:encoder issue编码器问题,只要编码后的码流符合标准即可,对编解码器并没有规定,其中涉及优化问题。

MPEG-1 :13818(视频标准)

帧内编码:

audio(听觉)
  • Bn=20KHZ,Fs=44.1KHZ,或是48KHZ Bps=16bit
voice(语音)
  • Bn=3.4KHZ->4KHZ ,Fs=8KHZ Bps=8bit

MPEG Audio

  • Audio layout2 ——MP2:时域上编码

  • Audio layout3 ——MP2:滤波器组,切割成32个子带

  • AAC MP3有更大的采样率:8-96KHZ,更大的比特数和更长的帧长

编码器

  • CELP:较有名的编码器, 基于模型的编码
  • MIDI

三基色:RGB

  • 16777216种颜色

  • 4096/2048 量化,取最大值

描述图像,用于检索的指标有

  • PBC
  • SRC
  • Edge histogram
    注意:旋转不变性,解决的是角度问题。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

flybirding10011

谢谢支持啊999

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值