莫烦Python RL 代码阅读一

这篇博客主要分析了莫烦Python的强化学习RL算法实现,包括build_q_table和choose_action函数的详细解释,以及rl()的整体思路。文章还补充了Python中的np.random.seed(), np.zeros(), pd.DataFrame()等函数的用途。此外,讨论了Q-Learning与Sarsa的区别,并提出了算法的改进思路。" 114512655,10541049,Java进程因内存不足被系统终止,"['Java内存管理', 'JVM调优', '操作系统', '服务器运维', '微服务']
摘要由CSDN通过智能技术生成

算法分析

不分析如何实现 environment

def build_q_table(n_states, actions)

def build_q_table(n_states, actions):
    table = pd.DataFrame(
        np.zeros((n_states, len(actions))),     # q_table initial values
        columns=actions,    # actions's name
    )
    # print(table)    # show table
    return table


pd.DataFrame()
np.zeros(a,b)
在下方版块有整理

此函数用于构建n行,len(actions)列的Q-table,算是典型的表格型方法

def choose_action(state, q_table)

def choose_action(state, q_table):
    # This is how to choose an action
    state_actions = q_table.iloc[state, :]
    if (np.random.uniform() > EPSILON) or ((state_actions == 0).all()):  # act non-greedy or state-action have no value
        action_name = np.random.choice(ACTIONS)
    else:   # act greedy
        action_name = state_action
  • 7
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值