Python-DQN代码阅读(10)

最新推荐文章于 2024-08-04 14:03:23 发布

天寒心亦热

最新推荐文章于 2024-08-04 14:03:23 发布

阅读量371

点赞数

分类专栏： Python 深度强化学习 TensorFlow 文章标签： python 深度学习强化学习深度强化学习人工智能

本文链接：https://blog.csdn.net/aaaccc444/article/details/130164218

版权

Python 同时被 3 个专栏收录

96 篇文章 2 订阅

订阅专栏

深度强化学习

46 篇文章 4 订阅

订阅专栏

TensorFlow

31 篇文章 0 订阅

订阅专栏

1.代码

1.1 代码阅读

1.2 代码分解

1.2.1 f = open("experiments/" + str(env.spec.id) + "/performance.txt", "a+")

1.2.2 f.write(str(ep) + " " + str(time_steps) + " " + str(episode_rewards) + " " + str(total_t) + " " + str( epsilon) + '\n')

1.2.3 f.close()

1.2.4 env.spec.id

1.2.5 a+

1.代码

1.1 代码阅读

if done:  # 如果游戏结束
    # print("done: ", done)
    break

state = next_state  # 更新当前状态为下一状态
total_t += 1  # 总步数加一

if train_or_test == 'train':  # 如果是训练阶段
    print('\n Eisode: ', ep, '| time steps: ', time_steps, '| total episode reward: ', episode_rewards, '| total_t: ', total_t, '| epsilon: ', epsilon, '| replay mem size: ', len(replay_memory))
elif train_or_test == 'test':  # 如果是测试阶段
    print('\n Eisode: ', ep, '| time steps: ', time_steps, '| total episode reward: ', episode_rewards, '| total_t: ', total_t, '| epsilon: ', epsilon)

if train_or_test == 'train':  # 如果是训练阶段
    f = open("experiments/" + str(env.spec.id) + "/performance.txt", "a+")
    f.write(str(ep) + " " + str(time_steps) + " " + str(episode_rewards) + " " + str(total_t) + " " + str(
        epsilon) + '\n')  # 将训练结果写入文件
    f.close()

这段代码是一个强化学习训练或测试的循环。在每一次训练或测试的 episode 中，通过循环在环境中与环境交互，并根据环境的反馈进行相应的处理。

具体而言，循环中的每一步包括以下步骤：

检查当前 episode 是否结束，如果结束则跳出循环。
如果当前 episode 没有结束，则更新当前状态为下一个状态。
更新总步数 total_t 的计数。
如果是训练模式，输出当前 episode 的信息，包括 episode 编号、时间步数、总回报、总步数、当前的 epsilon 值和 replay memory 的大小，并将这些信息写入到文件中。
如果是测试模式，输出当前 episode 的信息，包括 episode 编号、时间步数、总回报、总步数、当前的 epsilon 值。
继续下一步循环，与环境进行交互，直到当前 episode 结束。

这段代码主要负责控制训练或测试过程的循环和输出相应的信息，具体的训练或测试逻辑可能在循环内的其他代码段中实现。例如，前面提到的更新 Q 网络的代码就可能在这个循环内的某个位置执行。

1.2 代码分解

1.2.1 f = open("experiments/" + str(env.spec.id) + "/performance.txt", "a+")

f = open("experiments/" + str(env.spec.id) + "/performance.txt", "a+")

这段代码打开一个文件，文件路径是根据env.spec.id生成的，并在文件末尾以追加模式（"a+"）打开。这意味着如果文件不存在，则会创建一个新文件；如果文件已存在，则会将写入的内容追加到文件末尾。

这段代码用于将训练结果写入到一个名为"performance.txt"的文件中，文件位于名为"experiments"的目录下，该目录的路径是根据env.spec.id生成的。文件中写入的内容包括回合数（ep）、步数（time_steps）、总回合奖励（episode_rewards）、总步数（total_t）和当前的epsilon值（epsilon）等信息，用空格分隔。每次写入后会自动换行（\n）。

1.2.2 f.write(str(ep) + " " + str(time_steps) + " " + str(episode_rewards) + " " + str(total_t) + " " + str( epsilon) + '\n')

f.write(str(ep) + " " + str(time_steps) + " " + str(episode_rewards) + " " + str(total_t) + " " + str(
        epsilon) + '\n')

这段代码将回合数 (ep)、步数 (time_steps)、总回合奖励 (episode_rewards)、总步数 (total_t) 和当前的 epsilon 值 (epsilon) 转换成字符串并拼接在一起，中间用空格分隔。然后将这个字符串写入到文件中。末尾的 '\n' 是换行符，用于在写入完一行后换行，使得每一行的记录都单独占据一行。这样，每次写入后都会换到下一行，保证了每一次记录都独立显示在文件中的一行。