自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 强化学习3-策略梯度(policy gradient)

1. value-based和policy gradient的不同: a. 输出不同: value-based方法 (Q learning, Sara)输出的是p(s)p(s)p(s)或p(s,a)p(s,a)p(s,a); Policy gradient输出的p(a∣s)p(a|s)p(a∣s), 这样 policy gradient 就跳过了 value 这个阶段. b. 选取actio...

2019-06-11 20:26:26 2089 1

原创 强化学习2-value函数的近似

在强化学习中,如果状态是比较少,可以使用表格的方法类存储所有的转态和动作,每个格子代表一个状态。 但是在类似围棋游戏中,每下一个子就是一种状态,那么这些状态就非常多了,如果在程序中要用一个表格来表示状态与状态对应的值函数的话,那么内存就远远不够用了。 另外,当状态不是离散的时候,就无法用表格来表示了。所以,我们需要另外的方法来表示状态与状态对应的值函数。所以需要机器学习(比如:各种神经网络模型)的...

2019-06-06 11:41:29 253

原创 lstm/gru理解

一、LSTM变量分析 3个gate,1个输入、1个输出、1个cell 二、LSTM模型 3个gate一样; cell = cell + inputgate; h=output * cell 三、GRU

2019-06-05 17:39:10 199

原创 GAN相关的图像生成

####1. GAN的目标和迭代方法: (1).目标: (2).优化:先优化D;再优化G ####2. 图像生成中的DCGAN 加入了transport convolution ####3. cycleGAN (参考:https://www.leiphone.com/news/201709/i9qlcvWrpitOacjf.html) ...

2019-06-05 17:30:00 235

原创 如何理解SelfAttention

1. 如何理解attention attention可以理解为一种soft方式的用key找value a. Key找Value: 是有了key,就找出对应的value b. soft方式的 Key找Value: Query*key ->value, attention是Key要结合着Query,然后看在多大程度上使用value c.除了上述公式,也可以用别的Query和key的计算...

2019-06-05 17:22:00 1099

原创 强化学习1

1.MDP过程\textbf{1.MDP过程}1.MDP过程 2.单轮回报reward R和长期回报return G\textbf{2.单轮回报reward R和长期回报return G}2.单轮回报reward R和长期回报return G Reward R是单轮回报RnR_nRn​, Return G是序列未来的整体收益GnG_nGn​,可以表示为: ...

2019-06-05 15:34:39 141

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除