- 博客(2)
- 资源 (15)
- 收藏
- 关注
原创 The gossip problem【多智能体通信达成全局一致性需要的最少通信次数】
https://www.sciencedirect.com/science/article/pii/0012365X73901210https://arxiv.org/abs/1511.00867
2018-04-11 13:31:42 851
原创 如何解释policy gradient中的baseline具有降低variance的作用
在增强学习中有一大类方法叫policy gradient,最典型的是REINFORCE。在这类方法中,目标函数J(w)(通常是the expectation of long term reward)对policy参数w的gradient为:▽J(w) == E[ ▽logπ(a|s) * return ]== E[ ▽logπ(a|s) * (return-baseline)]~=计算N个samp...
2018-04-09 23:24:22 3706
dblp测试数据集
2016-03-26
entity linking源码
2016-01-17
机器学习数据集,20news-bydate.rar
2015-09-06
java读xml文件jar包
2015-08-22
javaweb连接数据库包mysql-connector-java-5.1.27-bin.jar
2015-08-15
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人