春种千粒粟-CSDN博客

原创【报错】import导入警告但实际已经安装

或者通过 “文件-设置-项目-python解释器” 查看到当前解析器为(ai-safety-gridworlds).并参看位置为C:Users\Admin\……与我们的jupyter的解析器D:env\……而pycharm中import pandas等进行报错，说明pycharm的配置环境与其是不同的。我们选择“添加解释器”–>"Vritualenv环境“–> “现有”。因为这个包是下载的且有设定配置的，并非是pycharm生成全新环境。在解释器一栏：选择D:\env……这种配置喜好文件删除。

2026-01-04 15:44:18 149

原创【上海(2)】自行车数据协同路网、天气、区级数据解决问题--新手小白保姆级

文章摘要本文介绍共享单车数据分析的两个关键部分：站点流量统计和社区检测。首先通过3D柱状图可视化站点借还车频次，筛选特定区域数据展示地理分布。其次应用Louvain算法进行社区检测，包括数据预处理、图构建、社区分析和优化过程，最终识别出具有高内聚性的地理区域。文章详细展示了数据处理流程，包括孤立节点移除、异常数据处理，以及各阶段图结构的对比分析。完整代码见配套文件，实现了从原始数据到社区聚类可视化的完整分析链条。

2025-12-25 19:36:29 582

原创【上海(1)】自行车数据协同路网、天气、区级数据解决问题--新手小白保姆级

SHP格式是GIS中最常用的矢量数据交换格式，包含.shp（几何信息）、.shx（索引）和.dbf（属性）三个必需文件。Python可通过geopandas库读取SHP文件，并支持基于属性和空间关系的筛选操作（如within、intersects等）。以上海路网数据为例，演示了数据筛选、空间查询、可视化（含轨迹叠加）及保存为GeoJSON等操作流程。还展示了摩拜单车轨迹数据的解析方法，包括坐标点提取、LineString转换和静态/交互式可视化技巧，为地理空间数据分析提供了完整的技术路线。

2025-12-19 12:09:18 902

原创【综精】Dynamic rebalancing optimization for bike-sharing systems: A modeling framework and empirical c

基于站点的共享单车系统已在多个大城市实施，提供了一种低成本且环保的交通替代方式。为解决站点不平衡问题，运营商通常通过卡车重新调配自行车。由此产生的动态规划问题受到了运筹学界的广泛关注。由于其建模灵活性，混合整数规划仍然是一个受欢迎的选择。然而，这种复杂的规划问题需要进行大量简化才能获得计算上可行的模型。因此，现有模型在决策变量和约束方面使用了各种各样的建模假设和技术。不幸的是，这些假设对实际解决方案性能的影响总体上仍未得到充分探索。在本文中，我们首先系统地综述了关于再平衡问题及其建模假设的文献。

2025-11-12 11:14:05 307

原创【精析】A Reinforcement Learning Approach for Dynamic Rebalancing in Bike-Sharing Systems

本文提出一种基于强化学习的自行车共享系统动态再平衡方法。针对多车辆协同场景，构建了连续时间框架下的多智能体马尔可夫决策过程模型，避免了传统离散时间模型的同步限制。通过开发高真实度模拟器，采用深度Q网络算法估计价值函数，最小化需求损失。实验表明，该算法在60个站点的网络下，相比混合整数规划基准可减少27.12%的需求损失，且决策速度达毫秒级，适用于实时应用。研究为智能城市交通提供了强化学习集成的新思路。

2025-09-25 16:22:08 774

原创【简】深度强化学习理论及其应用综述

方面,随着深度强化学习理论和应用研究不断深入,其在游戏、机器人控制、对话系统、自动驾驶等领域发挥重要作用;另一方面,深度强化学习受到探索-利用困境、奖励稀疏、样本采集困难、稳定性较差等问题的限制,存在很多不足. 面对这些问题,研究者们提出各种各样的解决方法,新的理论进一步推动深度强化学习的发展,在弥补缺陷的同时扩展强化学习的研究领域,延伸出模仿学习、分层强化学习、元学习等新的研究方向. 文中从深度强化学习的理论、困难、应用及发展前景等方面对其进行探讨.

2025-09-18 17:28:42 860

原创【综析】强化学习稀疏奖励算法研究——理论与实验

通过表 2总结了实验实现的 6 类算法的代表性算法在稀疏奖励问题中的表现，相比于 DDPG均有显著提升。

2025-09-18 00:43:55 1790

原创 DQN在稀疏奖励中的局限性

本文探讨了DQN在稀疏奖励环境中的局限性及改进方法。研究表明，传统DQN在稀疏奖励场景下存在收敛困难和探索失效问题，导致学习效率低下。针对这些问题，提出了四种核心解决方案：奖励塑形通过设计中间奖励引导智能体；内在好奇心机制赋予探索行为内在奖励；分层强化学习将任务分解为子任务；架构改进采用Dueling DQN等混合算法。研究还发现，结合特征提取增强、混合探索策略和元学习辅助，可有效应对高维状态空间的挑战。这些方法为解决稀疏奖励环境下的强化学习问题提供了重要思路。

2025-09-16 23:07:10 481

原创 DQN内存泄露

摘要：DQN训练过程中存在内存使用量线性增长的异常现象，即使Replay Buffer达到预设容量后内存仍持续攀升，可能导致OOM错误。该问题在经典CartPole环境中也被复现，表现为内存远超Buffer容量限制的线性增长趋势。根本原因可能在于Replay Buffer内部数据结构或管理机制存在缺陷，理想状态下Buffer充满后应保持固定内存占用，但实际运行中"充满"不等于内存稳定。这将对长时间大规模训练任务产生严重影响，需通过优化Buffer实现或采用监控工具来预防和解决该内存泄漏问

2025-09-16 18:51:21 334

原创 [旧]Markov Decision Processes: A Tool for Sequential Decision Making under Uncertainty

摘要：本文介绍了马尔可夫决策过程（MDP）在医疗决策中的应用，通过比较MDP与传统决策分析方法在活体肝移植最佳时机问题上的表现。研究表明，MDP不仅能更高效地求解最优策略（计算时间显著少于传统方法），还能处理序列决策中的不确定性。文章阐述了MDP的核心概念、求解方法（后向归纳法、价值迭代和策略迭代）及其在医疗领域的潜力，强调其在处理复杂临床决策问题时的优势。案例显示MDP与传统方法得出的最优移植策略和预期寿命结果一致。

2025-09-08 19:13:54 762

原创 [精析]Dual Policy Reinforcement Learning for Real-time Rebalancing in Bike-sharing Systems

本文提出了一种双策略强化学习算法（DPRL）来解决共享单车系统的实时再平衡问题。该方法创新性地将库存决策和路径决策解耦，采用基于DQN的双重策略框架分别处理这两个子问题，以更准确地捕捉系统动态变化并最小化需求损失。研究通过多智能体马尔可夫决策过程建模，并在考虑时间和天气因素的实际数据集上进行实验验证。结果表明，DPRL算法显著优于传统的混合整数规划模型和单一策略强化学习方法，为城市交通优化提供了新思路。该方法不仅提高了共享单车系统的运营效率，也为解决其他类似动态规划问题提供了参考。

2025-08-28 01:51:49 769

原创【论】Trajectory Forecasts in Unknown Environments Conditioned on Grid-Based Plans

本文提出了一种基于网格规划的未知环境轨迹预测方法P2T，通过最大熵逆强化学习(MaxEnt IRL)学习场景中的奖励函数，并联合推断行人和车辆的潜在目标及路径。该方法包含三个核心模块：全卷积奖励模型、MaxEnt策略采样器和基于注意力的轨迹生成器。实验表明，在斯坦福无人机和NuScenes数据集上，P2T能生成多样化的预测轨迹，准确反映多模态分布，并保持与场景结构的一致性。相比现有方法，P2T在长时预测和场景适应性方面表现更优，为自动驾驶中的轨迹预测提供了新思路。

2025-08-27 00:49:22 600

原创【普】人机协同决策的异质多智能体路径规划

本文提出了一种融合混合现实（MR）与人机协同决策（HMCDM）的异质多智能体路径规划方法HMATD3，以解决复杂动态环境中异质智能体的协同导航问题。方法包含三个关键模块：1）基于危险度的离线规划，通过改进A*算法的启发式函数降低碰撞风险；2）基于深度强化学习（DRL）的在线规划，采用改进的MATD3算法实现动态避障；3）人机协同决策模块，通过MR技术将人类专家经验融入路径修正过程。实验表明，该方法能有效处理智能体异质性，提升路径安全性和实用性，其中奖励函数设计结合了路径危险度和RVO避障策略，解决了DRL的

2025-07-20 01:17:23 1328

原创【精】Generating Adjacency-Constrained Subgoals in Hierarchical Reinforcement Learning

本文提出了一种基于邻接约束的分层强化学习方法（HRAC），通过将高层动作空间限制在当前状态的k步邻域区域，有效解决了目标条件化HRL中训练效率低下的问题。理论分析表明，在确定性MDP中，邻接约束能保持最优分层策略，且可通过邻接网络实现。实验在离散和连续控制任务上验证了HRAC的有效性，相比HIRO等基线方法，在Key Chest、Maze等任务中表现更优。该方法通过参数化近似最短转移距离，结合对比学习训练邻接网络，为HRL提供了一种高效的目标生成机制。

2025-07-18 14:14:59 1001

原创【析精】Landmark-Guided Subgoal Generation in Hierarchical Reinforcement Learning

面对状态多变任务复杂奖励稀疏的环境，HRL是一个不错的选择。面对上层网络需要为下层网络输出子目标。因为会有了一个V（状态，子目标）的价值函数用于评估子目标的好坏。其次子目标的是如何设定的呢？在本文中根据覆盖度和新颖度设计了一批“地标“，也可以看作是子目标的候选集。通过最短路径的方法，获得最紧急而非距离最近的地标点，记为$l_t^{sel}$.它可能距离当前状态过远，直接作为子目标会导致低层策略难以达成。生成伪地标 $g_t^{pseudo}$，将其投影到当前状态的邻域.策略模型分为高层策略和低层策略。两

2025-07-17 18:49:27 747

原创 [析]Deep reinforcement learning for drone navigation using sensor data

MDP无记忆性，使用LSTM补足缺点。PPO解决新旧策略差距大的问题。对于环境中的障碍物，设置增量课程，障碍物由1—>32.使用了PPO8, PPO16, PPO，和启发式算法(基准)作对比实验。PPO8和PPO16在训练初期学习速度较慢，但后期表现更稳定。随着训练进行，PPO8和PPO16的性能逐渐超越PPO，表明记忆机制的有效性。LSTM的时间步数为4or8。输入一个长度为n的状态序列。每步的状态为[时间，障碍物信息，距离dx, dy]。LSTM输出的是策略(即【动作，概率】)，LSTM的优化不

2025-07-16 22:35:17 979

原创【析】【差】Designing Discontinuities

摘要：本文提出了一种创新方法，通过结合量化理论和因果推断来优化设计不连续性阈值。传统回归不连续性设计(RDD)利用自然断点进行因果推断，但未考虑阈值的最优设计。作者建立了一个量化理论框架，先学习不连续变量的因果效应，再运用动态规划进行最优量化设计，并开发了高效的强化学习算法。实证研究中，该方法被应用于优化全球时区边界设计，通过分析社会资本、社会流动性和健康数据，证明了重新设计时区边界可能提升人类福祉。研究揭示了时区边界对社会资本和COVID-19传播的显著影响，为政策制定提供了新思路。

2025-07-10 15:29:23 1029

原创【论】电力-交通融合网协同优化：迎接电动汽车时代的挑战

本篇论文评估：用GAT建立图结构，用GNN抓取信息，用DQN获得动作选择。说是多智能体，但本质上是单智能体的。但是提供很好了状态向量空间的搭建方法。优点是面对不确定性，采用期望loss值的方法。电动汽车的普及，不仅改变了我们的出行方式，更深刻地重塑着电力系统和交通网络的交互模式。如何高效、智能地协同管理这个融合网络，是当前亟待解决的关键问题。

2025-07-03 19:48:11 931

原创【经典】Between MDPs and semi-MDPs: A framework for temporal abstraction in reinforcement learning

本文提出了一种在强化学习中实现时间抽象的方法，通过引入"选项"(Options)概念来扩展马尔可夫决策过程(MDP)框架。选项是包含策略、终止条件和启动集的三要素封装，能够表示持续一段时间的行动序列。研究发现，定义在MDP上的选项集合构成半马尔科夫决策过程(SMDP)，但最有趣的问题在于底层MDP与SMDP的交互。论文展示了三个关键应用：通过中断选项改进规划效果，开发从执行片段学习选项的新方法，以及利用子目标优化选项。这些成果在不依赖特定状态抽象或层次结构的前提下，为强化学习提供了更灵活

2025-06-27 04:08:21 1046

原创【一】零基础--分层强化学习概览

S：状态集合。A：动作集合。P：状态转移概率，表示从状态 s 执行动作 a 转移到状态 s′ 的概率。T：动作的停留时间分布，表示动作持续的时间步数。R：奖励函数，表示在状态 s 执行动作 a 获得的即时奖励。

2025-06-14 22:29:04 1335

原创 DQN和DDQN(进阶版)

Q表格、Q网络与策略函数Q表格是有限的离散的，而神经网络可以是无限的。对于动作有限的智能体来说，使用Q网络获得当下状态的对于每个动作的状态-动作值。那么arg max⁡Qas;θabest,那么我们对当前的状态s,会有一个最佳的选择abesta_{best}abest,选择的依据是策略θ\thetaθ. 我们的目标是获得最优的策略θ∗\theta^*θ∗.即优化θ\thetaθ。

2025-06-01 22:00:09 1375

原创【精】A user-based bike rebalancing strategy for free-floating bike sharing systems: A bidding model

2️⃣第二，当仅分配少量激励预算时，BIM能够以较快的速度收敛到最优激励价格，因此，只要用户能够以真实成本合理出价，BIM就被大力推荐。政策制定者和BSS从业人员应特别注意采取有效措施，如（i）引入区块链，（ii）将用户的个人信息与其投标价格隔离，以及（iii）共享成功交易的投标价格，以提高信息透明度（但是，受隐私保护）。**在此，我们考虑用户的不合理性，并分析其对BIM的有效性的影响。基于未经证实的投标价格（高于用户的真实距离成本），运营商高估了用户的距离成本，并相应地提供了高于用户预期的激励价格。

2025-05-28 13:46:01 1122

原创【精】Planning bikeway network for urban commute based on mobile phone data: A case study of Beijing

近年来，在共享单车项目的推动下，对城市自行车的需求迅速增加。作为鼓励骑自行车的有效方式之一，自行车道已被公认为支持骑自行车通勤。因此，合理规划自行车道和建设自行车道网络对于改善城市地区的自行车通勤至关重要。以北京为例，提出了基于手机数据的自行车道选择和优化分析框架。通过挖掘手机地理信息来分析自行车需求，然后应用TOPSIS方法评估自行车道的可用道路空间。最后，本研究采用最低成本路径方法选择自行车道路线，然后分别根据自行车道建设的两个场景的自行车潜力和交通量进行分类。

2025-05-28 13:42:57 759

原创【论】Interblock Flow Prediction With Relation Graph Network for Cold Start on Bike-Sharing System

随着物联网技术( IoT technology)的成熟和共享经济在全球范围内的扩展，共享单车系统( bike-sharing system)（BSS在过去十年中迅速传播。在新城市引入BSS时，运营商经常面临许多挑战：例如，优化车站选址（物理或电动）、建设自行车道以及制定自行车初始分配和重新平衡的策略。这些挑战需要在部署BSS之前进行准确的区块间流量预测。本文从城市道路网中推导区块，并根据POI的分布和类型提取区块的特征。然后，可以根据开始/结束块(start/end block)和。

2025-05-28 13:09:30 880

原创【 ai-safety-gridworlds】介绍和使用(未完)

我们实现了一种自动策略来解决这些问题，比如当两个智能体同时试图移动到同一个位置时候，或者多个智能体同时争夺有限的资源的时候，系统会自动介入处理，而不是需要你在每个具体的环境代码里都去写冲突解决逻辑。我们可以选择将某些智能体的内部指标，比如健康度、满意度等，设置为公开状态，让其他智能体能够观察到这些信息，这有助于建立更复杂的社交关系和协作策略。比如，对于一个既要生存又要积累财富的智能体，它的奖励向量可能有两个维度：一个是生存值，另一个是财富值。优点是直观，缺点是基于梯度的算法，可能不太方便处理向量奖励。

2025-05-28 10:03:01 1089

原创【未】Dynamic Rebalancing Problems for Bike-Sharing Systems: Mixed-Integer Programming Reinforcement

本文探讨了共享单车系统的动态再平衡问题，提出混合整数规划（MIP）和强化学习（RL）两种方法。MIP通过离散时间建模实现多周期优化调度，但存在计算滞后问题；RL则采用连续时间框架的MDP模型，能实时响应需求变化。研究对比了两种RL决策策略（同步与分离）的性能表现，结果表明RL方法在动态适应性、决策效率和用户体验方面优于传统MIP，能有效降低因车辆调度不及时导致的用户需求损失。通过理论分析和实验验证，为共享单车系统的智能调度提供了新的解决方案。

2025-05-28 10:00:17 716

原创【未】Multi-Platform dynamic game and operation of hybrid Bike-Sharing systems based on reinforcement

本文提出一种基于强化学习的混合共享单车系统多平台动态博弈与运营优化方法。针对竞争环境下传统自行车与电动自行车混合运营的复杂问题，研究构建了双平台马尔可夫决策过程框架，将博弈论与强化学习相结合，通过改进的嵌套Logit模型刻画用户选择行为，并开发了定制化的双重决斗深度Q网络算法进行求解。基于深圳真实数据的实验表明，该方法能实现平台利润与市场份额的双提升，为混合共享单车系统的动态定价和车辆调度提供了有效的解决方案。研究成果对多平台竞争环境下的共享出行系统运营具有重要指导意义。

2025-05-28 09:58:29 806

原创【代码】自制网格世界

本文介绍了一个网格环境类MapEnv的设计与实现，主要包括地图初始化和执行动作两大核心功能模块。在地图初始化部分，通过构造器init和__init__map方法控制地图生成流程，提供随机生成（随机墙、起点、奖励点）和固定配置两种模式，并包含路径连通性验证（BFS算法）和障碍物检测等关键功能。执行动作部分实现智能体的移动、拾取等交互逻辑，支持局部视野观测。该环境采用双矩阵结构表示水平和垂直墙，支持三种地图生成模式：完全固定、部分随机和完全随机，为智能体训练提供灵活的测试场景。

2025-05-28 09:44:13 482

原创【精未】A data-driven dynamic repositioning model in bicycle-sharing systems

新一代共享单车是一种 O2O（线上到线下）平台服务，使用户能够通过智能手机应用程序访问自行车。本文提出了一种具有预测需求的动态重新定位模型，其中重新定位时间间隔是固定的。引入了数据驱动的神经网络（NN）方法来预测自行车共享需求。定义每个时间间隔的重新定位目标函数，以同时最小化作员成本和惩罚成本。除了静态重新定位问题中的正常约束外，还考虑了流量守恒、库存平衡和旅行时间约束。

2025-05-16 18:21:21 940

原创【GNN笔记】Signed Graph Convolutional Network(12)【未完】

平衡理论就是“我朋友的朋友是我的朋友”，“我朋友的敌人是我的敌人”，“我敌人的敌人是朋友”平衡路径表示为包含偶数个负连接的路径；不平衡路径也表示为包含奇数个负连接的路径平衡三角形和不平衡三角形节点的平衡邻居和不平衡邻居根据两个节点如果由平衡路径链接，则是平衡邻居，否则是不平衡邻居。且k-阶邻居是可以通过迭代方式获得。

2025-05-16 18:03:19 475 1

原创【未完】【GNN笔记】EvolveGCN:Evolving Graph Convolutional Networks for Dynamics Graphs

Q:在前面提到，EvolveGCN在每一层将GNN和RNN结合在同一层。A：普通GCN的公式如下图所示，EvolveGCN的公式与之相同。当下默认args.model=‘egcn_o’，查看其他变量。如果节点信息⽐较少，-O效果好，因为他更关系图结构的变化。如果节点有信息，-H效果要好，因为考虑了节点的特征变化。,因此会存在数据维度不同的情况，因此设定了一个。采用快照的方法构图，同DySAT一样。Q:同一时刻数据在不同层如何计算？Q:在同一层不同时刻如何计算？第一次初始化，如下图。整体过程：如下图所示。

2025-05-16 18:02:46 1167 1

原创【data】上海膜拜数据

数据初始样貌。

2025-05-16 18:00:38 764 1

原创【未】[启发式算法]含初始解要求的有:TS, GA, SA, DPSO

禁忌搜索算法（TS）搞懂什么是禁忌搜索算法Tabu Search【附应用举例】

2025-05-16 17:59:11 1089 1

原创【展望好】Creating Multi-Level Skill Hierarchies in Reinforcement Learning

为每个层级 i，定义技能用于在相邻簇。

2025-05-04 11:38:08 696

原创【BRP】Two-stage stochastic approximation for dynamic rebalancing of shared mobility systems

泊松到达过程是连续时间、离散状态的随机过程，记为。

2025-04-29 21:24:00 1004

原创 [No]【O-D矩阵】A Bicycle Origin-Destination Matrix Estimation Based on a Two-Stage Procedure

核心问题：如何更有效的进行自行车OD矩阵的估计？

2025-04-19 23:55:43 759

原创【排队论】Probabilistic Forecasts of Bike-Sharing Systems for Journey Planning

用户更关心"是否有自行车可用"，而非具体数量。阈值策略:用户根据预测概率p和阈值p∗p^*p∗、决定是否前往站点。评分规则设计:基于用户效用函数(衡量用户满意度)，设计新的评分规则，用户有一个效用函数，用于衡量用户满意度。比如，成功借到车的效用高于没借到车的效用，用户会根据预测的概率p和一个自己设定的阈值p∗p^*p∗来决定是否去站点。如果预测概率大于等于阈值，就去;否则不去。评分规则是根据用户最终的决策结果和实际发生的情况来打分。

2025-04-19 17:14:05 706

原创【gym】实验taxi-v3案例(三)

中，Q表格.shape=(500,6).假设state=67,其decode=[0,3,1,3],含义为vehicle在index(0,3)的位置，乘客的位置为1(Green),目的地为3(Blue).见图a.最优的路线之一见图b.出租车开到乘客的位置，接乘客，开到乘客的目的地（四个指定位置中的另一个），然后下车。当乘客在目的地的位置的时候(乘客位置=目的地位置，供4种)，出租车的随机位置共100个，所以要删除4*25=100个没必要的状态。智能体需要根据当前状态选择适当的动作，以最大化其获得的奖励。

2025-02-20 17:53:08 1326

原创【问】强学如何支持迁移学习呢？

案例：从CartPole-v1迁移到MountainCar-v01。

2025-02-12 23:18:58 970

原创【问】同一个案例中，强学为什么优于启发式算法呢？

强化学习并不一定在所有情况下都比启发式算法（如基因遗传算法）更优秀，它们各有优势，适用于不同的场景。

2025-02-12 23:15:06 409

析装卸一体化车辆路径问题的自适应并行遗传算法

若文章侵权，必删除

2024-02-26

解考虑同时取送和时间窗的车辆路径及求解算法

原论文，若侵权必删

2024-02-20

基于CML模型的k．n网络拓扑结构相继故障分析

2023-06-29

多三角形接否动态复杂网络演化模型及稳定性分析

演化模型的算法与理论分析,度分布,平均聚集系数,

2023-06-29

ASTGCN--1个特征代码的data部分

因为代码和data合并起来太大。所以分开上传的。注意要把data解压缩后放入code文件夹中

2022-06-27

ASTGCN-中的代码---1个Feature

因为data资源太大，分开上传的

2022-06-27

Meta Graph Transformer: MGT

Meta Graph Transformer: A Novel Framework for Spatial–Temporal Traffic Prediction的解析代码代码解说见：https://blog.csdn.net/panbaoran913/article/details/125316113

2022-06-24