2020年05月_nana-li

05月 03月

原创 [强化学习] 时序差分学习

写在前面本文主要为学习sutton书中《时序差分学习》章节整理而来。一、引言 1、蒙特卡洛方法回顾（1）预测问题蒙特卡洛的目标是根据策略π\piπ采样轨迹序列vπ(s)v_\pi(s)vπ(s)：S1,A1,R2,...,Sk∼πS_1,A_1,R_2,...,S_k \sim \piS1,A1,R2,...,Sk∼π。价值函数：vπ(s)=E(Gt∣St=s)v_\pi(s) = \mathcal{E}(G_t|S_t=s)vπ(s)=E(Gt∣St=s) 累积奖励GtG_tGt

2020-05-11 12:33:36 1553

ATT&MIT;&YALE;&ORL;人脸库

ATT&MIT;&YALE;&ORL;人脸库，都是从网络上下载的资源，仅供学习，侵权立删

2017-10-10

mysql-connector-java-5.1.22

MYSQL连接器，使用不同的客户端程序连接mysql需要用的到驱动程序

2016-01-27

正交设计助手

这是一款绿色软件，不需要安装，解压后直接使用，可用于设计测试用例，

2015-04-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人