智能决策
文章平均质量分 88
超自然祈祷
让计算机成为我们无与伦比的利器
--searching for what I need in the world
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
庙算兵棋推演AI开发初探(11-智能体的强化学习)
该平台是基于陆军合成营战斗手工兵棋规则自主研发的智能训练与对抗评估一体化平台。它基于人工智能前沿理论重构了传统计算机兵棋系统——通过对推演环境、内存训练接口、网络对抗接口的封装,为AI研发提供了超高速单机训练与调试环境(普通PC上分队级内存推演只需要几秒时间);同时提供开放性的AI接入,符合接口规范的AI均可接入平台,在网络上开展机机、人机和人机混合对抗。 本教程将会用到平台提供的landwar开发包,相关代码和教程见:http://wargame.ia.ac.cn/aiinfo。转载 2026-04-27 02:57:05 · 74 阅读 · 0 评论 -
庙算兵棋推演AI开发初探(9-对手建模,反策略制定(上))
说来说去,回忆自己曾经在2018年时看到知乎上最简单的打飞机类智能体的比赛就想参加,现在有兵棋平台,只不过更复杂,我进度仍然缓慢——原来是自己总想着依赖着有人能带着完成……但自己想想,有时间有条件的时候,是不是就差自己的一个勇敢或莽撞?也就是不管对错做下去的勇气?前面我们完成了对神经网络智能体的构建,对历史回放数据的处理和学习,还有针对奖励函数的强化学习,并且将模型套在了可以有效翻译成动作的行为接口上。现在我想通过对手的历史战绩来优化我当前的智能体,我该怎么做呢?原创 2026-04-25 22:52:04 · 500 阅读 · 0 评论 -
在对抗的不确定性中遨游探索
基础点的层面就算所谓的“操作”,还记得那时候说“有操作的韩信能完虐对方5个人”,这就是在有效利用连招,以及灵活多变的应对局势、精准的操作和计算伤害达到目的,以及不断积累对战中的经济优势带来的碾压。在智能博弈中的目的是获取胜利,我们最基础的就是知道哪些是“好”的,哪些“不好”。将难以描述的可能性进行以事件进行标定,在随之而来的可能性的“平行宇宙”的分叉的树中,星际争霸的研究就是通过看对方出什么建筑物就判断对方的大致战术,采用对应的克制战术流派能大概率取胜。那么如何成为高手呢?原创 2026-04-19 23:19:32 · 45 阅读 · 0 评论 -
战术战法计策计谋博弈随笔
你现在问的这些问题,已经不属于“怎么把 AI 做强”“智能在对抗中,到底是什么?而历史上几乎所有真正厉害的兵家、棋手、战略家,最后关心的都不是“赢一局”,而是:能不能塑造局面能不能让对方“自己犯错”能不能在必然中留下选择的缝隙你之所以觉得这些东西“没看到用计算机解算”是因为它们处在“形式化之前的那一层”。计谋是否本质上不可自动化?是否存在“只能由有生命经验的智能才能理解的博弈层”?AI 是否终将把“骗术”学到极致,反而失去意义?围棋和象棋的圈套,是“你看得见,但你不懂”;原创 2026-01-25 23:29:41 · 724 阅读 · 0 评论 -
星际争霸数据集指南
《星际争霸AI研究数据集与工具综述》摘要:该文系统梳理了星际争霸系列作为AI研究平台的相关资源,重点介绍了Facebook(365GB母巢之战数据集)和DeepMind(6.5万场星际2对战)的开源数据集。同时详细解析了SC2LE研究环境、PySC2工具包等开发接口,以及SpawningTool等实用数据平台。文章还记录了强化学习地图、策略数据挖掘等研究经验,为后续AI研究提供了包括数据集获取、开发工具、参考文献在内的完整资源指南。特别提及AlphaStar采用的模仿学习+强化学习技术路线。原创 2025-06-28 22:13:37 · 1648 阅读 · 1 评论 -
庙算兵棋推演AI开发初探(8-神经网络模型接智能体进行游戏)
本文介绍了强化学习在游戏AI中的实践应用。首先阐述了强化学习的基本概念,包括动作空间、状态观测、奖惩机制和智能体设计等核心要素。然后详细讲解了马尔科夫决策过程、贝尔曼方程等理论基础,以及深度强化学习中的DQN、PPO等算法原理。在实践部分,提供了游戏环境初始化、训练流程设计和神经网络架构的具体实现方案,包含状态特征提取、策略网络设计和经验回放机制等关键技术。代码示例展示了如何构建包含卷积和GRU模块的混合神经网络来处理游戏中的空间和时间特征,最终输出动作决策。该方法通过强化学习优化预先训练的模仿学习模型,可原创 2025-06-15 10:06:55 · 1034 阅读 · 0 评论 -
庙算兵棋推演AI开发初探(支线-AI平台注意及tips)
输出回放数据,在显示中发现一动不动,发现stage字段一直是1部署阶段……这个我每次关机后都得重新来一遍,很讨厌,也没找到解决办法。确定发出了部署命令还没效果,看看你的下有没有这个隐藏文件,你现在是什么用户就在什么下。原创 2025-05-23 09:58:44 · 758 阅读 · 0 评论 -
六边形棋盘格(Hexagonal Grids)的坐标
这种就是把【方格子坐标】做到的具体来说有如下几种情况具体到庙算平台上,是很巧妙的用一个4位整数,前两位为x、后两位为y来进行表示附上计算距离的代码。原创 2025-04-19 23:09:32 · 1048 阅读 · 0 评论 -
庙算兵棋推演AI开发初探(7-神经网络训练与评估概述)
前面我们,接下来我们需要训练神经网络了,就是把数据对接好灌进去,训练后查看预测的和实际的结果是否一致——也就是。数据解析提取数据编码为数据集设计神经网络-->>神经网络训练与评估神经网络一个重要指标是,就是用可以逼近任意函数的神经网络是否可以。再重复一遍【特征工程】与【神经网络】的区别:前者就像人发现了牛顿第二定律,显式的找到并处理数据,然后;后者是把包含多余的各种参数都放到神经网络中,然后人为的中,经过训练得到隐含关系,原创 2025-04-28 23:30:19 · 1230 阅读 · 2 评论 -
庙算兵棋推演AI开发初探(空想篇-RLHF尝试)
一直没实现,以下写自 2024-07-30 23:27:16。原创 2025-03-30 11:50:56 · 959 阅读 · 0 评论 -
庙算兵棋推演AI开发初探(6-神经网络开发)
本质:不断求导找拟合,使得loss收敛,使得acc预测准确率变高用法:编码映射到标签结构:层级输入输出、loss函数设计、优化器。原创 2025-03-29 23:32:44 · 1582 阅读 · 0 评论 -
庙算兵棋推演AI开发初探(5-数据处理)
兵棋推演的五个要素:态势、动作、地图、想定、武器原创 2025-02-20 00:50:33 · 1501 阅读 · 0 评论 -
星际争霸2 sc2replay回放文件, python库sc2reader
项目地址有个说明文档,结果也没说清楚使用方法(至少我没看见)先引入项目地址上说的能处理的东西:Replays 回放重播详情(地图、长度、版本、扩展、日期时间、游戏类型/速度等)玩家详细信息(姓名、种族、团队、颜色、bnet url、赢/输......消息详细信息(文本、时间、玩家、目标、ping 等)Unit Selection 和 Hotkey (Control Group) 事件。资源转移和请求(但不包括收集速率或未花费的总数!原创 2024-11-20 00:57:59 · 1624 阅读 · 0 评论 -
RLHF(带有人类反馈的强化学习)初探
这个很难去在复杂的RTS游戏中界定,不像赛车游戏那样有限的操作空间——后来我想到了“策略的提取”,这样能体现一个人的相关思想(比如让某个人年轻时的思维来处理现在的问题,与当下的新思维碰同一个问题,一定很有趣。在深入研究和思考后发现,现有的比较接近的解决方案是【强化学习中的“模仿学习”】,但是这需要大量的对战数据。原创 2024-09-04 00:40:46 · 1147 阅读 · 0 评论 -
python-sc2 星际争霸2接口的运行-随笔
跑出来sc2py的一路踩坑记录原创 2024-07-31 00:27:04 · 1053 阅读 · 0 评论 -
庙算兵棋推演AI开发初探(4-调用AI模型)
前面讲了如何开展编写规则脚本型Agent(智能体)的方法,现在探究一下如何调用知识型(一般而言的训练出的模型)智能体的方法。train_red_demo.py 文件,提供与示例ai智能体相匹配的训练示例代码。test_red_demo.py 文件,提供与示例ai智能体相匹配的测试示例代码。转回来,看agent.py文件,这个文件是调用智能体的文件,讲规则智能体的时候我也讲到过。2. 本代码包括1个文件夹,2个文件,需要与 train_env 的目录同级。然后我就奇怪,到底是哪里调用所谓的”训练模型“呢?原创 2024-05-13 23:00:00 · 1597 阅读 · 0 评论 -
庙算兵棋推演AI开发初探(3-编写策略(下))
这里map.gen_move_route函数和self.get_move_type函数又引用自其他地方编写的。仔细看一下,原来是类似于函数指针的写法,将一堆变量指向了一堆函数,然后在代码里定义了诸多的函数。上一篇已经写了,调用起来就是遍历单位、找到合理的动作,再去使用编写的获取具体哪个动作的函数。gen_move函数,就是得到一个路径列表的返回值。这回从解读step函数中的这两句代码开始,返回的。就是上面这段,重点是本篇博文开始时提到的那两行。基本流程至此都看明白了,那么如何编写一个策略呢。原创 2024-01-01 15:44:39 · 1180 阅读 · 2 评论 -
庙算兵棋推演AI开发初探(2-编写策略(上))
它接受一个字典类型的参数,表示当前的游戏状态、环境信息或玩家信息等。以下是态势()最外层的数据结构以及他们代表的含义。obs = {"actions": list, # 上一步接收到的动作"cities": [], # 各个夺控点的信息"communication": [], # 通信相关信息"jm_points": [], # 间瞄点信息"judge_info": [], # 裁决信息"landmarks": {}, # 地标信息,雷场,路障"operators": [], # 算子信息。原创 2023-12-27 23:08:54 · 2606 阅读 · 0 评论 -
庙算兵棋推演AI开发初探(1-调用结构)
庙算兵棋推演平台中的环境对编写AI的调用方式原创 2023-12-23 12:18:41 · 2806 阅读 · 0 评论 -
庙算兵棋推演平台配置(SDK v2.0.6)
9月23开始,9月26完成。因为那时刚从大连回来,十一之后又一个紧急项目当项目负责人,所以隔了这么久才发出来。我尝试进行制作平台AI,想在我的小平板上配好,最好还可以移植。于是我采用WSL(windows自带的)+vscode来进行执行。原创 2023-12-12 00:32:00 · 3022 阅读 · 6 评论
分享