財報中的HoH, YoY, MoM, QoQ是什麼意思?

HoH, YoY, MoM, QoQ


H代表半年


Y代表一年


M代表一個月


Q代表一季


HoH為 半年增率(就是下半年跟上半年比或上半年跟去年下半年比~這比較少用~因為.....半年報出來再看Q3就能預測整年EPS了)


YoY為 年增率


MoM為 月增率


QoQ為 季增率
1. 数学建模 我们考虑将俄罗斯方块游戏建模为一个马尔可夫决策过程,其状态 $s_t$ 表示在游戏的第 $t$ 步时,俄罗斯方块的状态,包括当前方块的形状和位置以及下一个方块的形状,动作 $a_t$ 表示在当前状态下要执行的动作,即向左移动、向右移动、旋转或下落,奖励 $r_t$ 表示执行动作 $a_t$ 后获得的即时奖励。 我们使用 Pierre Dellacherie 算法的评估函数作为状态的特征向量,即 $s_t = (h_t, e_t, c_t, l_t, hoh_t, wells_t)$,其 $h_t$ 表示当前游戏区域的行高,$e_t$ 表示行变换数,$c_t$ 表示列变换数,$l_t$ 表示消行数,$hoh_t$ 表示空洞数,$wells_t$ 表示井数。具体地,行变换数表示一行除了最左和最右两列外,有多少列的状态从有方块变为空洞或从空洞变为有方块;列变换数表示一列除了最上和最下两行外,有多少行的状态从有方块变为空洞或从空洞变为有方块;空洞数表示所有空洞的数量;井数表示左右两侧都有墙而间有一个或多个空洞的列数。 我们使用 DQN 算法作为自动玩家的学习算法。具体地,在训练过程,我们使用经验回放的方式进行学习。我们定义经验 $e_t = (s_t, a_t, r_t, s_{t+1})$ 为一个状态、动作、奖励、下一个状态的四元组。我们将经验存储在经验池,并从随机抽取一批经验进行训练。网络的输入为当前状态的特征向量,输出为四个动作的 Q 值。在选择动作时,我们使用 epsilon-greedy 策略,即以一定的概率随机选择动作,以一定的概率选择当前 Q 值最大的动作。 2. 求解数学模型 我们使用深度权重网络来拟合 Q 函数。具体地,我们使用一个多层感知机作为网络结构,其输入层为状态的特征向量,输出层为四个动作的 Q 值。我们使用 MSELoss 作为损失函数,Adam 作为优化器进行网络训练。 3. 算法设计和复杂度分析 根据上述模型,我们可以设计一个基于 DQN 的自动玩家。具体地,在每个时间步,自动玩家根据当前状态选择一个动作,并执行该动作。执行完动作后,自动玩家将状态、动作、奖励、下一个状态的四元组存储到经验池,并从经验池随机抽取一批经验进行训练。 我们假设状态的维数为 $n$,网络的隐藏层维数为 $m$,经验池的最大容量为 $N$,每次训练的批次大小为 $B$,训练的总步数为 $T$。则自动玩家的时间复杂度为 $O(nm + NTB)$,空间复杂度为 $O(N)$。其,$nm$ 是网络的参数数量,$NTB$ 是训练的总量。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值