Sarsa（lambda）理解

最新推荐文章于 2023-02-28 16:08:25 发布

桔梗的眼泪

最新推荐文章于 2023-02-28 16:08:25 发布

阅读量1.8k

点赞数 1

分类专栏：机器学习求真之路计算机系统强化学习入坑路文章标签：强化学习Sarsa（lambda）

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_40274123/article/details/88651108

版权

上代码

import numpy as np
import pandas as pd


class RL(object):
    def __init__(self, action_space, learning_rate=0.01, reward_decay=0.9, e_greedy=0.9):
        self.actions = action_space  # a list
        self.lr = learning_rate
        self.gamma = reward_decay
        self.epsilon = e_greedy

        self.q_table = pd.DataFrame(columns=self.actions, dtype=np.float64)

    def check_state_exist(self, state):
        if state not in self.q_table.index:
            # append new state to q table
            self.q_table = self.q_table.append(
                pd.Series(
                    [0]*len(self.actions),
                    index=self.q_table.columns,
                    name=state,
                )
            )

    def choose_action(self, observation):
        self.check_state_exist(observation)
        # action selection
        if np.random.rand() < self.epsilon:

最低0.47元/天解锁文章

桔梗的眼泪

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
3
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

桔梗的眼泪 CSDN认证博客专家 CSDN认证企业博客

码龄7年

139: 原创

24万+: 周排名

45万+: 总排名

16万+: 访问

: 等级

2901: 积分

28: 粉丝

53: 获赞

23: 评论

267: 收藏

私信

关注

分类专栏

最新评论

java 数组的创建以及数组的内存地址
eeepi: 请问一下，arr的地址和arr[0]的地址有关联吗，还是说这俩是同一个地址
反转双向链表python实现
nianxiaozu: [code=python] def rev(self): """ 双链表反转 """ pre = None while self._head.next is not None: next_ = self._head.next self._head.next = pre self._head.prev = next_ pre = self._head self._head = next_ self._head.prev = None self._head.next = pre [/code]
前缀树python实现
ExceptGY: 输入的字符串是小写的a到z共26个字母，所以每个节点有26个路径。当字符串包含大写或者中文等等，就超出了26个字母了。 self.map = [None for i in range(26)] 这样的话就不对了。如何采用哈希表的方法构建路径？我没有一点思路，请大大帮帮忙，看看在这个基础上怎么把路改成哈希表构建的路，还能实现原代码中的插入字符，搜索字符，删除字符，查询字符前缀的次数这四个功能、
判断是否为搜索二叉树python实现
Zch的学习笔记空间: 你自己运行过么就往上写？没发现这样会stack空的时候就pop么？
Sarsa（lambda）理解
ChongShi11: 请问，sarsa(λ)可以使用神经网络近似Q值表吗？如果可以，其中的资格迹应该怎么进行更新？感谢您的回答。

最新文章

目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。