《Behavior Tree Learning for Robotic Task Planning through Monte Carlo DAG Search over a Formal Grammar》生啃基于蒙特卡洛树搜索的行为树论文…
应用
1、搜索空间巨大的游戏(围棋:361!)
2、黑盒优化
思想
搜索资源/算力倾斜 Tilt of search resources
流程
### 步骤
selection:选择UCB1更大的值(权衡探索与利用)
expansion
simulation/rollout:随机模拟(防止得到的只是局部最优解)
backpropagation:更新搜索树
UCB1(Si) =\overline{Vi} + c\sqrt{logN/ni}, c=2
具体实例
手推…待补充