复分析理论---如何形象理解平均值公式和最大模原理

导语

emmm这次讨论的话题如题,哎向其上次的作业怎么都还没写完,不管啦反正作业什么的都是浮云~

平均值定理(解析函数版)

要说这个定理呢,其实有的书上也叫他平均值公式,也有叫它平均值性质,Whatever,我们这里就叫他平均值定理好了。

并且还有两个不同版本的平均值定理(但他们其实说的都是同一件事),然后这里我们介绍的以解析函数来介绍平均值定理。

我们先给出书上的原始定义,然后再把数学语言转化为通俗易懂的话或者是图像:

f(z) |ζz0|<R 内解析,在 |ζz0|R 上连续,则

f(z0)=12π2π0f(z0+Reiφ)dφ

如果你是第一次看见这个公式的话,哎有爆粗的冲动也是可以理解,接下来我们开始对这个后面的结论进行分析。

  • 首先是 f(z0) 我们应该如何理解?
    对于其中的 z0 我们是可以理解为一个 (x,y) 的,因为 z0=x+iy 嘛。那么 f 这个东西相当于输入了一个(x,,y)然后返回了一个 (x,y) [因为返回出来的东西也可能是一个复数],但是为了理解更形象,我们假设, f(z0) 是可以被画到一个叫做 f 的坐标上的。

为什么要这样假设呢?因为这样一来,我们就建立了一个酱紫的标架(暂且忽略掉图中的曲线):

(需要插图)

那么,我们继续来看公式右边的函数f中的 z0+Reiφ ,这又是个啥?

在积分符号中 φ 的取值时从0到 2π 的,所以这个其实表示的是以 z0 为圆心,以R为半径的一个圆周上的所有点。

该函数将这些点从我们的 xy 平面映射到 f 轴上去(再次说明其实f轴也是复数的,即也是一个复平面,这里是为了简化。。。)

好的,那么如果大家能够接受我个人做的这个不成熟的假设的话,那么应该能够理解为什么会有刚才那张图了吧。即不同位置的圆周上的点对应不同高度的 f 坐标:

然后将这些高度进行积分之后得到的即为侧面的面积,除以2π得到的东西就是平均每单位弧长所对应的面积,并认为这个面积就是该圆心 z0 所对应的函数值 f(z0)

所以说,其实,还不算太抽象吧,这就是平均值公式。

最大模原理

就是对于在区域D解析的函数 f 来说,除非f是常数,否则 f 的最值不可能在区域D的内部取到。

为啥呢,因为你想,假设有一个z0在区域D的内部取到了最大值,我们知道解析函数是满足平均值原理的呀,现在我们在 z0 的周围找到一个圆周(这个圆周当然得属于D),那么我们就会发现这个时候就可以通过这个圆周上面的值来计算 f(z0) 了,但是我们不要忘记 f(z0) 是这圆周的高度的算术平均,所以说圆周上的最大值一定会大于 f(z0) ,而圆周上的最小值一定会小于 f(z0) ,所以 f(z0) 绝对不可能是最值。就产生矛盾了,所以说就有了最大模原理。

  • 29
    点赞
  • 32
    收藏
    觉得还不错? 一键收藏
  • 5
    评论
DQN算法是一种基于Q-learning的深度强化学习算法,其目标是学习一个Q函数,使得该函数能够最大化累积奖励。DDQN算法是对DQN算法的改进,通过解决DQN算法中过高估计Q值的问题,提高了算法的性能。Dueling DQN算法则是在DDQN算法的基础上,提出了一种新的神经网络结构,使得算法的学习效率更高。 下面是DQN算法的公式推导分析: 1. Q-learning的更新公式为:$Q(s_t,a_t) \leftarrow Q(s_t,a_t) + \alpha(r_{t+1} + \gamma \max_{a} Q(s_{t+1},a) - Q(s_t,a_t))$ 2. DQN算法使用了深度神经网络来逼近Q函数,将更新公式改为:$Q(s_t,a_t) \leftarrow Q(s_t,a_t) + \alpha(r_{t+1} + \gamma \max_{a} Q(s_{t+1},a; \theta^-) - Q(s_t,a_t; \theta))$,其中$\theta$为当前网络的参数,$\theta^-$为目标网络的参数,$\max_{a} Q(s_{t+1},a; \theta^-)$表示在下一个状态$s_{t+1}$中,选择动作$a$所得到的最大Q值。 3. DDQN算法在DQN算法的基础上,使用了双网络结构,解决了DQN算法中过高估计Q值的问题。更新公式为:$Q(s_t,a_t) \leftarrow Q(s_t,a_t) + \alpha(r_{t+1} + \gamma Q(s_{t+1},\arg\max_{a} Q(s_{t+1},a; \theta); \theta^-) - Q(s_t,a_t; \theta))$,其中$\arg\max_{a} Q(s_{t+1},a; \theta)$表示在下一个状态$s_{t+1}$中,选择动作$a$所得到的最大Q值对应的动作。 4. Dueling DQN算法在DDQN算法的基础上,提出了一种新的神经网络结构,使得算法的学习效率更高。具体来说,Dueling DQN算法的输出包括两个分支,分别是该状态的状态价值V(标量)和每个动作的优势值A(与动作空间同维度的向量)。网络结构如下图所示: [Dueling DQN网络结构](https://img-blog.csdn.net/20170727145756345?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvY2hlbnhpYW9fYmFpZHUx/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/q/80) 更新公式为:$Q(s_t,a_t) \leftarrow V(s_t) + (A(s_t,a_t) - \frac{1}{|\mathcal{A}|} \sum_{a} A(s_t,a))$,其中$V(s_t)$表示状态$s_t$的价值,$A(s_t,a_t)$表示在状态$s_t$下选择动作$a_t$的优势值,$\frac{1}{|\mathcal{A}|} \sum_{a} A(s_t,a)$表示所有动作的平均优势值。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值