智能决策
文章平均质量分 81
超自然祈祷
让计算机成为我们的左膀右臂
--searching for what I need in the world
展开
-
RLHF(带有人类反馈的强化学习)初探
这个很难去在复杂的RTS游戏中界定,不像赛车游戏那样有限的操作空间——后来我想到了“策略的提取”,这样能体现一个人的相关思想(比如让某个人年轻时的思维来处理现在的问题,与当下的新思维碰同一个问题,一定很有趣。在深入研究和思考后发现,现有的比较接近的解决方案是【强化学习中的“模仿学习”】,但是这需要大量的对战数据。原创 2024-09-04 00:40:46 · 932 阅读 · 0 评论 -
python-sc2 星际争霸2接口的运行-随笔
跑出来sc2py的一路踩坑记录原创 2024-07-31 00:27:04 · 745 阅读 · 0 评论 -
庙算兵棋推演AI开发初探(4-调用AI模型)
前面讲了如何开展编写规则脚本型Agent(智能体)的方法,现在探究一下如何调用知识型(一般而言的训练出的模型)智能体的方法。train_red_demo.py 文件,提供与示例ai智能体相匹配的训练示例代码。test_red_demo.py 文件,提供与示例ai智能体相匹配的测试示例代码。转回来,看agent.py文件,这个文件是调用智能体的文件,讲规则智能体的时候我也讲到过。2. 本代码包括1个文件夹,2个文件,需要与 train_env 的目录同级。然后我就奇怪,到底是哪里调用所谓的”训练模型“呢?原创 2024-05-13 23:00:00 · 663 阅读 · 0 评论 -
庙算兵棋推演AI开发初探(3-编写策略(下))
这里map.gen_move_route函数和self.get_move_type函数又引用自其他地方编写的。仔细看一下,原来是类似于函数指针的写法,将一堆变量指向了一堆函数,然后在代码里定义了诸多的函数。上一篇已经写了,调用起来就是遍历单位、找到合理的动作,再去使用编写的获取具体哪个动作的函数。gen_move函数,就是得到一个路径列表的返回值。这回从解读step函数中的这两句代码开始,返回的。就是上面这段,重点是本篇博文开始时提到的那两行。基本流程至此都看明白了,那么如何编写一个策略呢。原创 2024-01-01 15:44:39 · 781 阅读 · 2 评论 -
庙算兵棋推演AI开发初探(2-编写策略(上))
它接受一个字典类型的参数,表示当前的游戏状态、环境信息或玩家信息等。以下是态势()最外层的数据结构以及他们代表的含义。obs = {"actions": list, # 上一步接收到的动作"cities": [], # 各个夺控点的信息"communication": [], # 通信相关信息"jm_points": [], # 间瞄点信息"judge_info": [], # 裁决信息"landmarks": {}, # 地标信息,雷场,路障"operators": [], # 算子信息。原创 2023-12-27 23:08:54 · 1705 阅读 · 0 评论 -
庙算兵棋推演AI开发初探(1-调用结构)
庙算兵棋推演平台中的环境对编写AI的调用方式原创 2023-12-23 12:18:41 · 1429 阅读 · 0 评论 -
庙算兵棋推演平台配置
9月23开始,9月26完成。因为那时刚从大连回来,十一之后又一个紧急项目当项目负责人,所以隔了这么久才发出来。我尝试进行制作平台AI,想在我的小平板上配好,最好还可以移植。于是我采用WSL(windows自带的)+vscode来进行执行。原创 2023-12-12 00:32:00 · 2280 阅读 · 3 评论