自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 安装 CUDA CUDNN pytorch

配置环境

2022-11-16 17:15:31 292 1

原创 【无标题】

ddpg原理分析

2022-11-11 21:47:05 88

转载 2021-06-23

tf.nn.sparse_softmax_cross_entropy_with_logits() https://blog.csdn.net/ZJRN1027/article/details/80199248

2021-06-23 10:15:14 78

原创 loc、iloc、ix

创建矩阵数据 1.loc使用 标签 选择数据 2.iloc使用 序列 选择数据 3.混合使用 标签和序列 选择数据

2021-06-15 11:04:12 77

原创 NumPy(上)

Numpy(上) Numpy最重要的一个特点就是支持N维数数组对象ndarray。 生成numpy数组 1.利用array()方法 arr1= [1. 2.1 2. 3. ] 2.利用特定函数,比如np.arange() arr2= [0 1 2 3 4 5 6 7 8 9] arange(start,stop,step,dtype),start为起始值,默认为0,stop为终止值,取值区间左闭右开,step为步长,默认值为1 arr2= [[0 1 2 3 4] [5 6 7 8 9] arr2=

2021-06-01 20:47:11 45

原创 贝尔曼方程推导

马尔可夫的动态特性: 回报:(两种定义) 或 (折扣率大于等于0小于等于1,折扣率决定了未来收益的现值) 状态价值函数:从状态s开始,智能体按照策略π进行决策所获得回报的概率期望值 动作价值函数: 动作价值函数与状态价值函数的关系: 动作价值函数与马尔可夫的动态特性的关系: 因此贝尔曼方程推导为: 或(原理一样,只不过我当时没看明白书上的推导,所以按照自己的理解根据回溯图手写了一下,其实手写和书上截图的推导是一样一样的) 贝尔曼方程用等式表达了状态价值和后续状态价值之间的关系。 ...

2021-04-10 11:29:21 979

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除