- 博客(27)
- 收藏
- 关注
原创 Apollo -- Planning (五) 参考线 ReferenceLineProvider
参考线 ReferenceLineProvider
2024-07-25 15:30:34 1024
原创 [强化学习马里奥 MarioRL]-- 环境ENV 3
如果版本早于0.26,那么它将创建一个`SuperMarioBros-1-1-v0`的游戏环境,并不指定渲染模式,因为在0.26之前的版本中,默认就有渲染功能。4. 使用`env.step(action=0)`进行一步游戏,其中`action=0`意味着执行“向右走”的动作。然后,它从环境中获取下一个状态(`next_state`)、奖励值(`reward`)、是否完成游戏(`done`)以及额外的信息(`info`)。3. 通过调用`env.reset()`重置环境,准备开始新的游戏。
2024-07-17 15:12:17 619
原创 [强化学习马里奥 MarioRL]--Q值和V值 2
在强化学习(RL)中,Q值和V值是两种用于评估状态和行动的价值指标,它们对于决策过程至关重要。以下是关于Q值和VQ。
2024-07-15 12:56:07 349
原创 [神经网络]--手写数字识别
对于灰度图像(范围[0, 1]),将它们减去0.5然后除以0.5(实际上这相当于将范围从[0, 1]转换到[-1, 1]),但这种处理方式不严格符合传统的均值为0、标准差为1的标准化定义,因为这里的均值和标准差是人为设定的,而不是根据数据集的统计特性计算得出的。输出结果将显示训练集和测试集的大小,对于MNIST数据集,训练集通常包含60000张图片,测试集包含10000张图片。:这个转换会对Tensor进行标准化处理,使其均值为0,标准差为1。),并指定了每个批次(batch)的大小为64。
2024-07-12 20:13:39 691
原创 [强化学习马里奥 MarioRL]--环境安装 1
建议使用conda环境进行包管理 torch gym包默认安装好了。测试包代码 执行后看有没有报错 缺啥装啥。
2024-07-12 13:35:59 157
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人