- 博客(20)
- 收藏
- 关注
原创 第3关:有模型价值迭代参考
该问题的背景是这样的:在一个大小为的湖面上,有些地方结冰了,有些地方没有结冰。这个环境的状态空间有 16 个不同的状态{s0,s1,s2,...,s15},表示当前处在哪一个位置;与策略评估的情形类似,价值迭代算法有参数来控制迭代的终止条件,可以是误差容忍度 ϑmax 或是最大迭代次数 kmax。为了完成本关任务,你需要掌握:1.有模型价值迭代,2.有模型价值迭代实现。价值迭代是一种利用迭代求解最优价值函数进而求解最优策略的方法。最优方程迭代求解最优策略的价值函数,并进而求得最优策略。
2024-06-21 19:22:58 1031
原创 第2关:有模型策略迭代参考
对于一个确定性策略 π,如果存在着s∈S,a∈A, 使得qπ(s,a)>vπ(s),那么我们可以构造一个新的确定策略π',它在状态 s 做动作 a ,而在除状态 s 以外的状态的动作都和策略 π 一样。策略改进(policy improvement):对于给定的策略π,在已知其价值函数的情况下,找到一个更优的策略;策略迭代从一个任意的确定性策略策略迭代从一个任意的确定性策略 π0 开始,交替进行策略评估和策略改进。策略迭代是一种综合利用策略评估和策略改进求解最优策略的迭代方法。输入:动力系统 p。
2024-06-21 19:22:12 614
原创 头歌pytorch 之神经网络参考答案
nn.ReLU(),#定义卷积层Conv2d:输入16张特征图,输出32张特征图,卷积核5x5,padding为2#定义BatchNorm2d层,参数为32#定义非线性层ReLUnn.ReLU(),# 定义全连接层:线性连接(y = Wx + b),7*7*32个节点连接到10个节点上# 输入out->layer2->更新到out#view函数将张量x变形成一维向量形式,总特征数不变,为全连接层做准备# 输入out->fc,更新到outreturn out。
2024-06-06 16:13:45 585
原创 头歌PyTorch之线性回归参考答案
线性回归模型# 调用Module的初始化# 输入和输出分别为一维# module调用forward,将按forward进行前向传播,并构建网络return out# 实例化一个新建的模型变量model# 输出该模型 model 的‘.parameters'属性。
2024-06-06 16:10:06 322
原创 头歌Pytorch之优化
定义参数LR = 0.01EPOCH = 10# 默认的 network 形式#隐藏层的激活函数#线性输出return x# 声明优化器opt_Momentum,传入对应的模型参数,lr 赋值为 LR,momentum为0.7# 声明优化器opt_RMSprop,传入对应的模型参数,lr 赋值为 LR,alpha为0.9# 声明优化器opt_Adam,传入对应的模型参数,lr 赋值为 LR,betas为(0.9, 0.99)#训练循环#反向传播 计算梯度#更新梯度。
2024-06-06 16:06:35 490
原创 头歌Pytorch之优化第1关:如何使用optimize
这题很傻逼,输出就得用他这optimizer.param_groups[0]['lr'],测试代码有检测,自己写的时候是用循环遍历字典,再输出lr键值,一直报错,后面看测试代码才发现检测机制是param_groups[0]['lr'],真捞。
2024-06-03 11:21:57 379 2
原创 头歌Pytorch 之torch.nn初探参考答案
改实验对输出格式有一定要求,写起来确实挺头疼尤其是没看清左侧要求。代码难度不大基本在左侧能找出答案,下面答案仅供参考。
2024-06-03 10:49:07 403
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人