整得咔咔响-CSDN博客

原创概率图模型(总结篇)

今天我们对概率图模型（Probabilistic Graphical Model，PGM）做一个总结。模型表示概率图模型，是指一种用图结构来描述多元随机变量之间条件独立关系的概率模型...

2021-01-21 07:30:00 16503 8

原创统计机器学习（总结篇）

2020.08.01~2020.11.18，历经110天，我们把频率学派发展起来的统计机器学习章节全部介绍完毕。本文我们做一个总结。频率学派最基础、最核心的模型是线性回归，这也是为什么绝...

2020-11-18 22:00:00 1014

原创【目录】运筹优化

运筹学篇章已全部更新完毕......

2026-05-11 22:23:00 19

同时，位于海外基地的生产线2所需要的原材料可以通过较高的价格在开放市场购买，所以生产线2的产能没有限制，但是，国内基地的工会合同规定下，生产线2的产能也受到限制。如果可以，则更新乘子，并重新计算对应的松弛问题；Benders分解算法采取与拉格朗日算法相互补充的策略，它首先对于一些比较复杂的列，通过固定部分决策变量得到一个更易求解的问题，然后限制主问题根据子问题返回的决策变量值决定是否达到最优，子问题从固定的决策变量值集合中，选择可以改进限制主问题目标函数值的决策变量，并传递给限制主问题。

2026-05-11 22:00:51 524

原创值函数近似(DQN)

我们来实现它，这里状态的特征函数使用5阶傅里叶基数，动作使用位置编码区分。训练的时候需要注意，episode的长度不宜设置得过短或过长，这里设置为100。δ 是成正反馈关系，神经网络梯度与参数w有关，梯度范数可能达到10^3次方，那么初期在w不稳定时，每更新一次，目标y也随着变大，拟合的目标被放大。这个算法关键的蓝色和红色框，蓝色框是状态编码的技巧；红色框主要是神经网络的设计会影响算法收敛速度。我们继续强化学习的值函数近似算法，今天我们专门介绍Q-learning的相关模型。有了前期的铺垫，我们正式介绍。

2026-05-10 18:00:37 362

原创值函数近似(TD Linear)

如果是均匀分布，貌似看起来不太合理，因为我们希望靠近目标的状态给予更多的权重，它的近似值更加的接近理论值最好。因此，我们需要对状态空间进行充分采样，得到它们的分布，这样称为。目前为止，我们对q(s,a)的学习都是离散的，有限的，可以用表格形式展示。在实现的时候，线性函数不能随便定义，要把状态空间与动作空间合并起来进行one-hot编码，在这里例子中，状态空间25个，动作空间5个，所以一共是25*5=125维的参数空间！但是，红色部分是真实的状态价值函数，我们不得而已，因为我们的目的就是用近似函数替代它。

2026-04-19 15:30:22 287

原创时序差分算法（三）

前者用于生成经验样本（即智能体与环境交互产生的数据），持续向最优策略方向更新的策略（即我们最终要学习的策略）。Q-learning与Sarsa是两种不同策略的强化学习算法。类似Sarsa这种，我们称为。，碰到边界奖励为-1，若进入目标区域奖励为1，其余情况奖励为0；折扣系数设置为0.9。怎么理解呢，在时序差分学习任务中，存在两种策略。同策略学习，否则是异策略学习。行为策略（behavior policy）目标策略（target policy）用别的策略采样，当前策略学习。完全相同时，这种学习方式称为。

2026-04-18 10:02:15 494

原创时序差分算法（二）

但由于Q值初始化为0或随机值，这个“最好”的动作往往是错误的。智能体会反复执行这个错误的动作，永远无法探索到其他可能带来高回报的动作，导致。最常用的方法是：初始 ε值通常设置得较大（如 0.5 或 0.9），确保初期有足够的探索。如果基于策略生成n个样本再更新也是可以，进一步，采样到一个episode再更新，就是MC算法了。：如果初始策略过于保守（如总是选择某个安全动作），智能体需要花费大量时间才能偶然发现更好的路径，学习效率极低。如果下一步的动作价值高，说明当前这一步走对了，反之则说明走错了。

2026-03-14 22:00:37 338

原创时序差分算法(一)

注：这一节我们介绍是某个策略下求解状态价值函数，所以说是求解贝尔曼公式(而不是贝尔曼最优公式)。这两种方式，摆脱了对预先知识或重置环境的依赖，从而能够在在线、增量的环境中，直接从原始经验流中学习状态价值。领域的开创性算法，由 Herbert Robbins 和 Sutton Monro 于1951年提出。是单次采样得到的一个具体“观测值”或“实现值”。上面我们回答了TD算法是什么，现在我们还要回答为什么。‌的情况下，仅通过带有噪声的观测值，逐步逼近某个目标参数。是解决BOE问题的又一大工具，它的英文是。

2026-03-11 23:00:50 321

原创 MC ε-greedy算法实现

高ε需要更多迭代来平均掉探索带来的噪声，以实现收敛。，碰到边界奖励为-1，若进入目标区域奖励为1，其余情况奖励为0；例如，ε每1000个Episode衰减为原来的0.995，直到一个下限（如0.01）：在长Episode中，一个早期的随机探索动作可能影响整个后续轨迹，使得回报。还未收敛，我们得设置衰减机制，让智能体前期大胆探索，后期精细寻找解。衰减机制：每进行1000次迭代，ε=max(0.9*ε,0.01)第二步：固定Episode长度，调试ε策略和迭代次数。ε=0.1，N_max=5万次。

2026-03-01 15:00:34 299

原创 BOE问题的MC解法

如果我们每个状态动作对都做一次预估，遇到状态动作空间很大的场景，计算量巨大且会有浪费的情况。因为每个状态动作对在策略作用下，会进入下一个状态动作对，此时我们引入。如果策略是随机的，那么每次采样g(s,a)是不一样的。：每个episode结束后，立即用其回报更新访问过的(s,a)的Q值，并基于当前Q表改进策略。状态-动作对都收集了足够多的episode后，才能计算平均回报，更新Q值；有两种方式，一种是固定学习率，一种是迭代次数的倒数。可以得知，如果策略是固定的，那么每次采样的g(s,a)是一样的；

2026-02-23 21:30:48 315

原创数值迭代与策略迭代

在策略迭代的每一次大迭代里面，应用映射压缩定理，j=0,1,2....计算状态价值函数，而数值迭代只计算了一次，立即进入下一次迭代，但到后面数值迭代的策略稳定，每次迭代只改变状态价值函数，直到稳定。数值迭代算法是从给定初始状态价值函数开始的，同样的，我们能初始化策略，一直迭代到最优策略，这个就是。但随着数值迭代步数增加，后面的策略不再改变，vk会变，也就应用了压缩映射定理。如果数值迭代初始值v0设定为策略迭代第一次得到的v0，那么得到的策略。，而策略迭代算法实际上不可实现，没有无限的步骤。

2026-02-14 18:06:00 291

原创深入理解BOE问题的数值迭代算法

这里需要声明一点，value iteration的每一次迭代，并非直接应用压缩映射定理的收敛迭代序列，而是只做一次计算，立即进入下一次迭代，直到第一次找到最优策略时，往后的迭代才利用了压缩映射定理。参数组合1：若进入禁行区域或者碰到边界奖励均为-1，若进入目标区域奖励为1，其余情况奖励为0；参数组合2：若进入禁行区域或者碰到边界奖励均为-1，若进入目标区域奖励为1，其余情况奖励为0；，碰到边界奖励为-1，若进入目标区域奖励为1，其余情况奖励为0；综上，奖励函数的设计、折扣系数的多少会影响最终策略的抉择。

2026-02-08 20:01:24 421

原创贝尔曼最优公式(BOE)

贝尔曼最优方程（Bellman optimality equation）还是得回到最简单的数学分析。BOE的数值迭代算法（value iteration）回顾上一节，我们给出了贝尔曼方程的。如果存在，最优策略是唯一的吗。最优策略是固定的还是随机的。为求解这个函数，我们要引入。Banach不动点定理(

2026-02-07 16:01:32 365

原创贝尔曼公式

在St=s时刻,可以采取不同的行动（因为策略是概率分布），得到的及时奖励和下一时刻的状态也是不一样的（因为也是概率分布），所以会有很多条轨迹（数量根据状态空间，行动空间和概率分布决定）。因为对于一个动作和一个状态，奖励也是一个分布，所以在固定动作后，要对奖励先求期望，得到该动作下的期望奖励，然后乘以该动作的概率。表示特定策略下状态的价值，它是这个特定策略下所有动作的期望回报，我们还想衡量某个动作的价值，引入。状态s的函数，从s开始按照策略π一直走下去，能获得的平均总回报（考虑未来奖励的折扣）

2026-02-06 00:00:29 285

原创马尔可夫决策过程（MDP）

这里需要说明两点：a.轨迹是确定的，但状态转移和策略是概率分布，所以在实际模拟的时候，会得到很多轨迹；：智能体越"有远见"，未来奖励的衰减很慢，会综合考虑长期累积回报。状态转移函数和奖励函数都是条件概率，由于一条轨迹会很长，那么越往后，其表达式就会很复杂，进行数值计算几乎不可能。想起自己的公众号，加上最近工作上也要用到。假设有一种方法，告诉我们对于当前时刻所处的状态应该采取怎么样的行动，我们称为。，对于当前的状态，采取一种行动，会进入下一个状态，我们称为。状态空间S，动作空间A(s)，奖励空间R(s,a)

2026-02-03 22:00:22 354

原创大规模优化方法（一）

迄今为止，我们介绍的优化算法都是从整体性出发，搜索全局最优点。而且大多数都是从一个初始可行解出发进行的（分支定界搜索从某种意义上可以说不是）。换句话，这些算法都是直接求解。但一些问题过于复杂，要优化的变量实在过多，规模庞大，以至于没办法从整体考虑入手。今天我们介绍间接求解的算法，将原问题分解成多个足够简单、可以单独迭代直接求解的子问题（subproblem），伴随的主问题（master probl...

2023-04-08 22:30:18 1632

原创＜span class=“js_title_inner“＞大规模优化方法（一）＜/span＞

然后下面重复步骤2~步骤4两次，第一次添加列5，得到线性松弛问题的解x(1)，不满足0-1整数约束，进入步骤4，再次选择添加列6，得到新的解x(2)，此时找不到满足条件的新列j。该算法并不是直接对带有所有列的规划问题进行求解，而是通过限制主问题求解只包含当前生成的列的模型，再由列生成子问题选择可能改进限制主问题目标函数值的列，并加入到限制主问题中。假设原问题是求最小化目标的0-1整数规划，初始化时，选择了四列构成规划问题的约束，得到根节点和初始解x(0)，恰好是一个整数解，将最优解和对应的最优解更新。

2023-04-08 22:30:18 21

原创离散优化的启发式迭代算法

本章介绍一些重要的、严格意义上真正的启发式算法。话不多说，进入正题。1构造型启发式算法第一类启发式算法是构造型搜索（constructive search）算法。它通常从每一个自由决策变量的离散分量开始，在每次迭代中，在当前决策解固定情况下，一个先前自由的变量固定为一个可行值。在最简单的情况下，当没有自由变量存在时，搜索过程停止。构造型搜索的主要难点在于如何选择下一个待固定的自由变量并且确定它的值...

2023-04-01 23:50:21 1506

原创＜span class=“js_title_inner“＞离散优化的精确求解方法＜/span＞

由于原问题一般是不等式约束，但以前我们开发过的算法（单纯形等）都是基于标准型线性规划，因此，初始化方法传入的是化为原问题松驰模型的标准型线性规划的系数矩阵、右边系数向量和目标系数向量，然后用一个可传参数prime_n来声明原问题的变量个数。包括，节点，母节点，该节点固定的变量，松驰解、松驰值、取整解和最佳解等，然后用一个字段“状态”动态更新该节点是否进行分支、终止等信息，并记录分支的次数（最多2次）。一些是含离散约束的线性规划，一些是含整数变量的线性规划，还有一些是连续与整数组合的非线性规划。

2023-03-30 20:38:27 30

原创离散优化的精确求解方法

在上一篇我们列举了各式各样的整数与组合规划模型。一些是含离散约束的线性规划，一些是含整数变量的线性规划，还有一些是连续与整数组合的非线性规划。这些模型的求解方法也极为丰富，今天我们介绍精确优化（exact optimal）方法。传送门：离散优化模型1全枚举法求解如果一个模型只有少数离散变量，最有效的求解方法往往也是最直接的：列举出所有可能。这个称为全枚举法（total enumeration），它...

2023-03-19 20:34:17 2864 1

原创离散优化模型

最短路及动态规划、网络流模型的决策变量被建模为离散变量，我们仍可以优雅解决这些问题。但现实中还有很多场景无法建模为这种特殊的离散模型。绝大多数的整数及组合优化模型实际上更有挑战性。今天这一篇我们对离散模型做个整体介绍，一共七种场景。1块状/批量线性规划及固定成本一大类离散优化问题是在线性规划基础上加上非此即彼的边际约束或目标函数。我们把这类问题叫做块状/批量线性规划（lumpy linear pr...

2023-03-12 18:00:35 1569

原创＜span class=“js_title_inner“＞离散优化模型＜/span＞

由于这些船只属于不同的区域，配备着不同的设备，使用成本也不同，给任何一个区域分配船只的时间和成本随着船只的不同而产生很大的变化。这些呼叫中心会处理许多地理区域发生的电话预订和订单，由于电话费也根据呼叫人的区域和接收中心的位置而显著变化，因此站点选择是非常重要的。该市可以分为不同的救护车服务区，每个救护车站的地点是从很多选项中选出的，使得该区域中的人口可以尽可能多地享受到呼叫救护车的迅速应答。目前为止我们介绍的分配问题都是要求每一个集合中的元素i恰好被分配给另一个集合中的一个元素j。

2023-03-12 18:00:35 28

原创＜span class=“js_title_inner“＞离散优化模型＜/span＞

由于这些船只属于不同的区域，配备着不同的设备，使用成本也不同，给任何一个区域分配船只的时间和成本随着船只的不同而产生很大的变化。这些呼叫中心会处理许多地理区域发生的电话预订和订单，由于电话费也根据呼叫人的区域和接收中心的位置而显著变化，因此站点选择是非常重要的。该市可以分为不同的救护车服务区，每个救护车站的地点是从很多选项中选出的，使得该区域中的人口可以尽可能多地享受到呼叫救护车的迅速应答。目前为止我们介绍的分配问题都是要求每一个集合中的元素i恰好被分配给另一个集合中的一个元素j。

2023-03-12 18:00:35 26

原创网络流与图（四）

针对网络流模型的应用我们继续延申更多的变种，学习更多现实案例的应用。传送门：网络流与图（一）网络流与图（二）网络流与图（三）1最大流与最小割运输与分配问题是只有源集与汇集的特殊网络流模型，与之延申的还有一类特殊情景——最大流与最小割问题。我们先给定义，一个给定有向图G(V,A)上的最大流(max flow)问题即找到一个特定源节点s和一个特定汇节点t之间的最大可行流,要求满足其他所有弧上的流守恒条...

2023-03-04 23:40:52 1869

原创＜span class=“js_title_inner“＞网络流与图（四）＜/span＞

节点1至节点5代表一段时间内的现金，每个节点旁边的数字b表示各月的现金净需求（单位：千美元）。在此问题中，每个住宅的出行需求是不可替代的。我们必须分别从三个源出发的出行构建分离的商品网络，但商品仍然不是独立的，因为所有人共享渡船的2000个出行容量。同样的，也用类似的损耗来连接现金和债券节点，例如弧（2，7）代表第2周投资到债券的现金，损耗乘子a=0.998对应着0.2%的投资税。例如弧（3，4）的乘子a=1.005，因为在月利率0.5%下，第3个月投资的每一美元在一个月后都会变成1.005美元。

2023-03-04 23:40:52 20

矩阵向量求导知识体系

聚类专场.ipynb

根据二维样本分布确定不规则多边形.ipynb

协同过滤ItemCF相似度矩阵归一化的一个问题