基于GAN的序列合成与语音质量增强
1. 强化学习方法选择
在强化学习中,Q - Learning是一种基于价值的方法。它维护一个Q表,用于记录各种动作的奖励。在决策时,它会选择能带来最大奖励值的动作,然后根据该动作产生的新环境更新Q表。与策略梯度方法相比,Q - Learning训练速度更快,常用于动作空间较小的简单任务。
当强化学习和监督学习(如CNN中的随机梯度下降SGD方法)都可用时,可根据搜索空间的连续性和目标函数的可微性来选择:
|条件|适用方法|
|----|----|
|目标函数可微且搜索空间连续|SGD方法|
|搜索空间离散或目标函数不可微|强化学习|
|搜索空间不大且有额外计算资源|进化搜索(ES)方法|
|变量服从高斯分布|CMA - ES方法|
2. SeqGAN架构
SeqGAN旨在解决普通GAN和判别器网络无法解决的问题。普通GAN擅长合成离散数据,但无法处理序列数据;判别器网络不能评估不同长度的序列数据。为解决这些问题,SeqGAN采用了以下策略:
- 更新生成器网络 :使用策略梯度方法更新生成器网络。
- 处理序列长度问题 :使用蒙特卡罗树搜索(MCTS)方法生成剩余数据。
2.1 强化学习策略
假设在时间$t$,生成的序列为$\mathbf{y} {1:t}$,当前动作$a_t$由生成器网络$G {\theta}$给出,其中$\theta$是初始状态。基于$\mathbf{y} {1:t}$生成
超级会员免费看
订阅专栏 解锁全文
345

被折叠的 条评论
为什么被折叠?



