![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Python
文章平均质量分 74
小蜗牛( ˙-˙ )
这个作者很懒,什么都没留下…
展开
-
PARL教程--lesson4(Policy Gradient)
基于PARL教程的笔记 目录基于策略梯度求解RLValue-Based & Policy-Basedsoftmax函数幕 Episode(一回合游戏)轨迹 Trajectory优化策略函数 πθ(s,a)\pi_\theta(s, a)πθ(s,a)策略梯度蒙特卡洛 MC 和时序差分 TD蒙特卡洛(回合更新)时序差分(单步更新)蒙特卡洛 REINFORCE代码model.pyalgorithm.pyagent.pytrain.py 基于策略梯度求解RL 策略近似、策略梯度 之前使用函数拟合价值.原创 2021-05-08 20:43:11 · 320 阅读 · 1 评论 -
pd.DataFrame()用法简单记录
pd.DataFrame() 先来看看它的定义: class DataFrame( data=None, index: Optional[Axes]=None, # 行标 columns: Optional[Axes]=None, # 列标 dtype: Optional[Dtype]=None, # 存储的数据类型 copy: bool=False) 我们可以直接创建空的dataframe,也可以在创造时就输入数据。 创建一个简单的dataframe: import panda原创 2021-04-19 15:22:45 · 68324 阅读 · 0 评论 -
DQN--经验回放的实现(简单)
经验回放的实现 使用pd.DataFrame()函数定义一个存储经验的表格 存储函数store() 取出一个或多个样本的函数sample() 第一步,在DQNplayer类中,我们需要初始化一个存储结构 pd.DataFrame(index=range(capacity), columns=['observation','action','reward', 'next_observation','done'] 这个表格的行号是range(capacity),即表格中能够存储的经验数量;列号包括原创 2021-04-19 10:15:46 · 1612 阅读 · 0 评论 -
CS231n笔记(一)
CS231n(一) Challenges 视角 明暗 变形 遮挡 背景混乱 类内差异 def classify_image(image): # Some magic here? return class_label 数据驱动 收集数据集(图片 and 标签) 训练一个分类器 使用新图片去评估分类器 第一个分类器——最近邻 使用一个函数接收数据,进行训练 另外一个函数使用新的数据评估模型 def train(image, label): # Machine Learning return m原创 2021-03-25 21:04:15 · 342 阅读 · 0 评论