接天莲叶别样红-CSDN博客

原创强化学习3-策略梯度(policy gradient)

1. value-based和policy gradient的不同: a. 输出不同: value-based方法 (Q learning, Sara)输出的是p(s)p(s)p(s)或p(s,a)p(s,a)p(s,a); Policy gradient输出的p(a∣s)p(a|s)p(a∣s), 这样 policy gradient 就跳过了 value 这个阶段. b. 选取actio...

2019-06-11 20:26:26 2089 1

原创强化学习2-value函数的近似

在强化学习中，如果状态是比较少，可以使用表格的方法类存储所有的转态和动作，每个格子代表一个状态。但是在类似围棋游戏中，每下一个子就是一种状态，那么这些状态就非常多了，如果在程序中要用一个表格来表示状态与状态对应的值函数的话，那么内存就远远不够用了。另外，当状态不是离散的时候，就无法用表格来表示了。所以，我们需要另外的方法来表示状态与状态对应的值函数。所以需要机器学习(比如：各种神经网络模型)的...

2019-06-06 11:41:29 253

原创 lstm/gru理解

一、LSTM变量分析 3个gate，1个输入、1个输出、1个cell 二、LSTM模型 3个gate一样； cell = cell + inputgate; h=output * cell 三、GRU

2019-06-05 17:39:10 199

原创 GAN相关的图像生成

####1. GAN的目标和迭代方法： (1).目标: (2).优化:先优化D；再优化G ####2. 图像生成中的DCGAN 加入了transport convolution ####3. cycleGAN （参考:https://www.leiphone.com/news/201709/i9qlcvWrpitOacjf.html） ...

2019-06-05 17:30:00 235

原创如何理解SelfAttention

1. 如何理解attention attention可以理解为一种soft方式的用key找value a. Key找Value: 是有了key，就找出对应的value b. soft方式的 Key找Value: Query*key ->value, attention是Key要结合着Query，然后看在多大程度上使用value c.除了上述公式，也可以用别的Query和key的计算...

2019-06-05 17:22:00 1099

原创强化学习1

1.MDP过程\textbf{1.MDP过程}1.MDP过程 2.单轮回报reward R和长期回报return G\textbf{2.单轮回报reward R和长期回报return G}2.单轮回报reward R和长期回报return G Reward R是单轮回报RnR_nRn, Return G是序列未来的整体收益GnG_nGn，可以表示为: ...

2019-06-05 15:34:39 141

weixin_40575507的博客

原创强化学习3-策略梯度(policy gradient)

原创强化学习2-value函数的近似

原创 lstm/gru理解

原创 GAN相关的图像生成

原创如何理解SelfAttention

原创强化学习1

空空如也

空空如也

原创 强化学习3-策略梯度(policy gradient)

原创 强化学习2-value函数的近似

原创 lstm/gru理解

原创 GAN相关的图像生成

原创 如何理解SelfAttention

原创 强化学习1

空空如也

空空如也

原创强化学习3-策略梯度(policy gradient)

原创强化学习2-value函数的近似

原创如何理解SelfAttention

原创强化学习1