Sarsa
Sarsa在线更新算法
适用于状态空间和动作空间为离散的情况
import numpy as np
import gym
class SarsaAgent(object):
def __init__(self, obs_n, act_n, learning_rate=0.01, gamma=0.9, e_greedy=0.1):
self.act_n = act_n # 动作维度,有几个动作可选
self.lr = learning_rate # 学习率
原创
2022-04-20 20:25:10 ·
267 阅读 ·
2 评论