Alpha Zero 趣味学习:设置网络参数
TicTacToe 神经网络设置等参数,在文件 main.py 和 config.py 集中可见。
全部参数的名称和含意如下:
- num_iterations :迭代次数
- num_games :自行训练,每次迭代的棋局数目
- num_mcts_sims :每局棋蒙特卡罗搜索树模拟的数目
- c_puct :蒙特卡罗搜索树探索的等级
- l2_val :训练用到的 L2 范式的等级
- momentum :网络优化的动量参数
- learning_rate :动量参数优化的学习率
- t_policy_val :下棋策略的预测值
- temp_init :控制探索的初始热度参数值
- temp_final :控制探索的最终热度参数值
- temp_thresh :热度由初始转向终结的阈值
- epochs :训练中批发数据的次数
- batch_size :训练中批发数据的尺寸
- dirichlet_alpha :Dirichlet 噪声的