莫烦Python RL 代码阅读一
算法分析
不分析如何实现 environment
def build_q_table(n_states, actions)
def build_q_table(n_states, actions):
table = pd.DataFrame(
np.zeros((n_states, len(actions))), # q_table initial values
columns=actions, # actions's name
)
# print(table) # show table
return table
pd.DataFrame()
np.zeros(a,b)
在下方版块有整理
此函数用于构建n行,len(actions)列的Q-table,算是典型的表格型方法
def choose_action(state, q_table)
def choose_action(state, q_table):
# This is how to choose an action
state_actions = q_table.iloc[state, :]
if (np.random.uniform() > EPSILON) or ((state_actions == 0).all()): # act non-greedy or state-action have no value
action_name = np.random.choice(ACTIONS)
else: # act greedy
action_name = state_action

这篇博客主要分析了莫烦Python的强化学习RL算法实现,包括build_q_table和choose_action函数的详细解释,以及rl()的整体思路。文章还补充了Python中的np.random.seed(), np.zeros(), pd.DataFrame()等函数的用途。此外,讨论了Q-Learning与Sarsa的区别,并提出了算法的改进思路。"
114512655,10541049,Java进程因内存不足被系统终止,"['Java内存管理', 'JVM调优', '操作系统', '服务器运维', '微服务']
最低0.47元/天 解锁文章
1043

被折叠的 条评论
为什么被折叠?



