- 博客(5)
- 收藏
- 关注
原创 MountainCarContinuous-v0,基于DDPG,pytorch,200轮收敛
3、第三种奖励值设置方法还是基于state[1]的,只不过把思路稍微转换一下,即reward=abs(state[1])-2,因为时间拖的越久,total_reward肯定越低,这样的话他在第一次抵达终点之后,会愿意更多的去终点,解决了第二种方法的缺陷。2、第二种奖励值设置方法是基于state[1]的,也就是reward=abs(state[1]),表示速度越大,给予越大的奖励值,前期效果还行,但后期很难抵达终点(大概原因就是他认为不去终点更容易拿到更多奖励)
2024-05-22 23:23:13 329 3
原创 CartPole-v1无限步数(Gym,pytorch、DQN)
基于常规DQN算法(无算法层面的优化)实现CartPole-v1无限步数唯一的改动就是把奖励和当前位置产生了联系,从零开始的话大概训练1000轮左右(十分钟?)就能无限步数
2024-05-12 00:15:09 401 2
原创 塔子月赛第一场 题解
3、2333的小清新数论题。不太会做,只能暴力骗分了。2.2333的超级队列。模拟前几项找规律就行了。这题也是只会暴力骗分了。
2023-05-20 21:35:00 50
原创 ZJYC2023 浙江省大学生程序设计竞赛校内选拔赛全题题解
D:x&y=a(a二进制为1的位x和y也必须为1),x+y=s,s为剩下几位的和,即这几位不能和前面重合。K:dp,中间枚举到的值必须都是k的因子,加上这个剪枝之后就很快了。H:枚举两个点然后找跟这两个点在同一条直线上的点,注意去重!L:从前往后枚举,减去字典里重复的就行。J:从前往后枚举,直到不能再递增为止。A:正着写不方便,那倒着写就行了。F:枚举a,b然后算出c。G:从终点开始枚举bfs。
2023-04-01 17:37:36 316
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人