强化学习 | 课堂笔记 | 第二课 DPP/近似DPP/Q函数

一、动态规划原理

1.1 马尔科夫性

马尔科夫性是可以用动态规划的前提,即:

1.2 贝尔曼最优性原理

这里假设π是固定动作,且奖励和状态转移没有随机性。

蘑菇书EasyRL中的公式(2.3.12价值迭代)在此基础上增加了状态转移的随机性,其他并无变化,见☆☆式

1.2.1 remark

第二条,固定π时的方程即为贝尔曼方程

 二、随机结构

引入不确定性:Pr(r|St,At)和Ps(s|St,At)以及π(a|s),此时贝尔曼方程发生了变化&#

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
DPP是Differential Pulse Code Modulation(差分脉冲编码调制)的缩写,在视频编码中常用于编码预测误差,以减少数据量和提高压缩效率。下面对QP/C中的DPP例程进行讲解: DPP的编码过程如下: 1.读取当前帧和参考帧的像素数据。 2.将参考帧的像素数据与当前帧的像素数据进行差分运算,得到预测误差。 3.对预测误差进行量化,得到量化误差。 4.对量化误差进行熵编码,得到二进制码流。 DPP的解码过程如下: 1.读取参考帧的像素数据。 2.对二进制码流进行熵解码,得到量化误差。 3.对量化误差进行反量化,得到预测误差。 4.将参考帧的像素数据与预测误差进行加和,得到当前帧的像素数据。 在QP/C中,DPP的编码和解码实现都在"DPP.C"文件中。其中,编码函数为"DppEncode",解码函数为"DppDecode"。 DppEncode函数的参数包括:当前帧的像素数据、参考帧的像素数据、图像宽度和高度、量化参数。 DppEncode函数的实现过程如下: 1.通过调用"GetDiff"函数,得到预测误差。 2.通过调用"Quantize"函数,对预测误差进行量化,得到量化误差。 3.通过调用"WriteCode"函数,对量化误差进行熵编码,得到二进制码流。 DppDecode函数的参数包括:参考帧的像素数据、图像宽度和高度、量化参数、二进制码流。 DppDecode函数的实现过程如下: 1.通过调用"ReadCode"函数,对二进制码流进行熵解码,得到量化误差。 2.通过调用"Dequantize"函数,对量化误差进行反量化,得到预测误差。 3.通过将参考帧的像素数据与预测误差进行加和,得到当前帧的像素数据。 综上所述,DPP在视频编码中起到了重要的作用,能够有效地减少数据量和提高压缩效率。在QP/C中,DPP的实现也相对简单,通过差分运算、量化、熵编码和反量化等步骤,实现了对预测误差的编码和解码。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值