莫烦Python RL 代码阅读一

最新推荐文章于 2022-06-10 00:24:58 发布

IAmDreamingNow

最新推荐文章于 2022-06-10 00:24:58 发布

阅读量828

点赞数 7

分类专栏： Reinforcement Learning 文章标签：机器学习 reinforcement learning

本文链接：https://blog.csdn.net/qq_37499578/article/details/105671323

版权

这篇博客主要分析了莫烦Python的强化学习RL算法实现，包括build_q_table和choose_action函数的详细解释，以及rl()的整体思路。文章还补充了Python中的np.random.seed(), np.zeros(), pd.DataFrame()等函数的用途。此外，讨论了Q-Learning与Sarsa的区别，并提出了算法的改进思路。" 114512655,10541049,Java进程因内存不足被系统终止,"['Java内存管理', 'JVM调优', '操作系统', '服务器运维', '微服务']

摘要由CSDN通过智能技术生成

算法分析

不分析如何实现 environment

def build_q_table(n_states, actions)

def build_q_table(n_states, actions):
    table = pd.DataFrame(
        np.zeros((n_states, len(actions))),     # q_table initial values
        columns=actions,    # actions's name
    )
    # print(table)    # show table
    return table

pd.DataFrame()
np.zeros(a,b)
在下方版块有整理

此函数用于构建n行，len（actions）列的Q-table，算是典型的表格型方法

def choose_action(state, q_table)

def choose_action(state, q_table):
    # This is how to choose an action
    state_actions = q_table.iloc[state, :]
    if (np.random.uniform() > EPSILON) or ((state_actions == 0).all()):  # act non-greedy or state-action have no value
        action_name = np.random.choice(ACTIONS)
    else:   # act greedy
        action_name = state_action

最低0.47元/天解锁文章

IAmDreamingNow

关注

7
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
莫烦Python RL 代码阅读一

莫烦Python RL 代码阅读一算法思路Python函数功能补漏np.random.seed() 函数np.zeros(a,b)函数pd.DataFrame()函数根据字典创建算法思路Python函数功能补漏np.random.seed() 函数seed( ) 用于指定随机数生成时所用算法开始的整数值。1.如果使用相同的seed( )值，则每次生成的随即数都相同；2.如果不设置这...
复制链接

扫一扫

专栏目录