- 博客(6)
- 收藏
- 关注
转载 2021-06-23
tf.nn.sparse_softmax_cross_entropy_with_logits() https://blog.csdn.net/ZJRN1027/article/details/80199248
2021-06-23 10:15:14
78
原创 NumPy(上)
Numpy(上) Numpy最重要的一个特点就是支持N维数数组对象ndarray。 生成numpy数组 1.利用array()方法 arr1= [1. 2.1 2. 3. ] 2.利用特定函数,比如np.arange() arr2= [0 1 2 3 4 5 6 7 8 9] arange(start,stop,step,dtype),start为起始值,默认为0,stop为终止值,取值区间左闭右开,step为步长,默认值为1 arr2= [[0 1 2 3 4] [5 6 7 8 9] arr2=
2021-06-01 20:47:11
45
原创 贝尔曼方程推导
马尔可夫的动态特性: 回报:(两种定义) 或 (折扣率大于等于0小于等于1,折扣率决定了未来收益的现值) 状态价值函数:从状态s开始,智能体按照策略π进行决策所获得回报的概率期望值 动作价值函数: 动作价值函数与状态价值函数的关系: 动作价值函数与马尔可夫的动态特性的关系: 因此贝尔曼方程推导为: 或(原理一样,只不过我当时没看明白书上的推导,所以按照自己的理解根据回溯图手写了一下,其实手写和书上截图的推导是一样一样的) 贝尔曼方程用等式表达了状态价值和后续状态价值之间的关系。 ...
2021-04-10 11:29:21
979
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人