- 博客(4)
- 资源 (13)
- 收藏
- 关注
原创 A thorough understanding of on-policy and off-policy in Reinforcement learning
一句话区分on-policy and off-policy: 看behaviour policy和current policy是不是同一个就OK了!我这篇文章主要想借着理解on-policy和off-policy的过程来加深对其他RL算法的认识。因为万事万物总是相互联系的,所以在自己探究,琢磨为什么有些算法是on-policy或者off-policy的过程中,对于它们的本质也有了更深的认识。
2018-01-24 19:57:31 658
原创 The awkward Bellman optimality equation in RL
通过博文2017 Fall CS294 Lecture 6: Actor-critic introduction,一文中插播的Reinforcement Learning: An introduction(Sutton1998)书中的一页截图,对于 Vπ(s)V^\pi(s): the state-value function for policy π\pi. Qπ(s,a)Q^\pi(s,a
2018-01-21 14:29:15 1213
原创 MADDPG翻译
论文全称:Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments 项目地址: https://blog.openai.com/learning-to-cooperate-compete-and-communicate/本文是对MADDPG的翻译,huanghe摘要一, 引言二, 相关工作三...
2018-01-19 10:49:28 29834 21
原创 Python中的Attempted relative import in non-package问题
最近在帮一个伙伴debug的时候发现,在一个package的内部,直接run一个.py文件,会报错说ValueError: Attempted relative import in non-package。原来这是因为,当我run的这个.py文件,如果它在某个package的文件夹下,而且这个.py文件夹内有诸如: from . import from .. import
2018-01-15 10:41:30 21732 4
UFLDL exercise9 Convolution and Pooling
2016-04-13
UFLDL exercise8 Linear Decoder
2016-04-12
UFLDL exercise7 Stacked Autoencoder
2016-04-11
UFLDL exercise5 Softmax Regression
2016-04-11
UFLDL exercise6 Self-Taught Learning
2016-04-09
UFLDL exercise3&4 PCA and Whitening
2016-04-09
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人