- 博客(229)
- 资源 (3)
- 问答 (1)
- 收藏
- 关注
原创 概率图模型(总结篇)
今天我们对概率图模型(Probabilistic Graphical Model,PGM)做一个总结。模型表示 概率图模型,是指一种用图结构来描述多元随机变量之间条件独立关系的概率模型...
2021-01-21 07:30:00
16478
8
原创 统计机器学习(总结篇)
2020.08.01~2020.11.18,历经110天,我们把频率学派发展起来的统计机器学习章节全部介绍完毕。本文我们做一个总结。频率学派最基础、最核心的模型是线性回归,这也是为什么绝...
2020-11-18 22:00:00
1006
原创 时序差分算法(二)
但由于Q值初始化为0或随机值,这个“最好”的动作往往是错误的。智能体会反复执行这个错误的动作,永远无法探索到其他可能带来高回报的动作,导致。最常用的方法是:初始 ε值通常设置得较大(如 0.5 或 0.9),确保初期有足够的探索。如果基于策略生成n个样本再更新也是可以,进一步,采样到一个episode再更新,就是MC算法了。:如果初始策略过于保守(如总是选择某个安全动作),智能体需要花费大量时间才能偶然发现更好的路径,学习效率极低。如果下一步的动作价值高,说明当前这一步走对了,反之则说明走错了。
2026-03-14 22:00:37
324
原创 时序差分算法(一)
注:这一节我们介绍是某个策略下求解状态价值函数,所以说是求解贝尔曼公式(而不是贝尔曼最优公式)。这两种方式,摆脱了对预先知识或重置环境的依赖,从而能够在在线、增量的环境中,直接从原始经验流中学习状态价值。领域的开创性算法,由 Herbert Robbins 和 Sutton Monro 于1951年提出。是单次采样得到的一个具体“观测值”或“实现值”。上面我们回答了TD算法是什么,现在我们还要回答为什么。的情况下,仅通过带有噪声的观测值,逐步逼近某个目标参数。是解决BOE问题的又一大工具,它的英文是。
2026-03-11 23:00:50
299
原创 MC ε-greedy算法实现
高ε需要更多迭代来平均掉探索带来的噪声,以实现收敛。,碰到边界奖励为-1,若进入目标区域奖励为1,其余情况奖励为0;例如,ε每1000个Episode衰减为原来的0.995,直到一个下限(如0.01):在长Episode中,一个早期的随机探索动作可能影响整个后续轨迹,使得回报。还未收敛,我们得设置衰减机制,让智能体前期大胆探索,后期精细寻找解。衰减机制:每进行1000次迭代,ε=max(0.9*ε,0.01)第二步:固定Episode长度,调试ε策略和迭代次数。ε=0.1,N_max=5万次。
2026-03-01 15:00:34
284
原创 BOE问题的MC解法
如果我们每个状态动作对都做一次预估,遇到状态动作空间很大的场景,计算量巨大且会有浪费的情况。因为每个状态动作对在策略作用下,会进入下一个状态动作对,此时我们引入。如果策略是随机的,那么每次采样g(s,a)是不一样的。:每个episode结束后,立即用其回报更新访问过的(s,a)的Q值,并基于当前Q表改进策略。状态-动作对都收集了足够多的episode后,才能计算平均回报,更新Q值;有两种方式,一种是固定学习率,一种是迭代次数的倒数。可以得知,如果策略是固定的,那么每次采样的g(s,a)是一样的;
2026-02-23 21:30:48
306
原创 数值迭代与策略迭代
在策略迭代的每一次大迭代里面,应用映射压缩定理,j=0,1,2....计算状态价值函数,而数值迭代只计算了一次,立即进入下一次迭代,但到后面数值迭代的策略稳定,每次迭代只改变状态价值函数,直到稳定。数值迭代算法是从给定初始状态价值函数开始的,同样的,我们能初始化策略,一直迭代到最优策略,这个就是。但随着数值迭代步数增加,后面的策略不再改变,vk会变,也就应用了压缩映射定理。如果数值迭代初始值v0设定为策略迭代第一次得到的v0,那么得到的策略。,而策略迭代算法实际上不可实现,没有无限的步骤。
2026-02-14 18:06:00
277
原创 深入理解BOE问题的数值迭代算法
这里需要声明一点,value iteration的每一次迭代,并非直接应用压缩映射定理的收敛迭代序列,而是只做一次计算,立即进入下一次迭代,直到第一次找到最优策略时,往后的迭代才利用了压缩映射定理。参数组合1:若进入禁行区域或者碰到边界奖励均为-1,若进入目标区域奖励为1,其余情况奖励为0;参数组合2:若进入禁行区域或者碰到边界奖励均为-1,若进入目标区域奖励为1,其余情况奖励为0;,碰到边界奖励为-1,若进入目标区域奖励为1,其余情况奖励为0;综上,奖励函数的设计、折扣系数的多少会影响最终策略的抉择。
2026-02-08 20:01:24
411
原创 贝尔曼最优公式(BOE)
贝尔曼最优方程(Bellman optimality equation)还是得回到最简单的数学分析。BOE的数值迭代算法(value iteration)回顾上一节,我们给出了贝尔曼方程的。如果存在,最优策略是唯一的吗。最优策略是固定的还是随机的。为求解这个函数,我们要引入。Banach不动点定理(
2026-02-07 16:01:32
347
原创 贝尔曼公式
在St=s时刻,可以采取不同的行动(因为策略是概率分布),得到的及时奖励和下一时刻的状态也是不一样的(因为也是概率分布),所以会有很多条轨迹(数量根据状态空间,行动空间和概率分布决定)。因为对于一个动作和一个状态,奖励也是一个分布,所以在固定动作后,要对奖励先求期望,得到该动作下的期望奖励,然后乘以该动作的概率。表示特定策略下状态的价值,它是这个特定策略下所有动作的期望回报,我们还想衡量某个动作的价值,引入。状态s的函数,从s开始按照策略π一直走下去,能获得的平均总回报(考虑未来奖励的折扣)
2026-02-06 00:00:29
271
原创 马尔可夫决策过程(MDP)
这里需要说明两点:a.轨迹是确定的,但状态转移和策略是概率分布,所以在实际模拟的时候,会得到很多轨迹;:智能体越"有远见",未来奖励的衰减很慢,会综合考虑长期累积回报。状态转移函数和奖励函数都是条件概率,由于一条轨迹会很长,那么越往后,其表达式就会很复杂,进行数值计算几乎不可能。想起自己的公众号,加上最近工作上也要用到。假设有一种方法,告诉我们对于当前时刻所处的状态应该采取怎么样的行动,我们称为。,对于当前的状态,采取一种行动,会进入下一个状态,我们称为。状态空间S,动作空间A(s),奖励空间R(s,a)
2026-02-03 22:00:22
332
原创 大规模优化方法(一)
迄今为止,我们介绍的优化算法都是从整体性出发,搜索全局最优点。而且大多数都是从一个初始可行解出发进行的(分支定界搜索从某种意义上可以说不是)。换句话,这些算法都是直接求解。但一些问题过于复杂,要优化的变量实在过多,规模庞大,以至于没办法从整体考虑入手。今天我们介绍间接求解的算法,将原问题分解成多个足够简单、可以单独迭代直接求解的子问题(subproblem),伴随的主问题(master probl...
2023-04-08 22:30:18
1606
原创 <span class=“js_title_inner“>大规模优化方法(一)</span>
然后下面重复步骤2~步骤4两次,第一次添加列5,得到线性松弛问题的解x(1),不满足0-1整数约束,进入步骤4,再次选择添加列6,得到新的解x(2),此时找不到满足条件的新列j。该算法并不是直接对带有所有列的规划问题进行求解,而是通过限制主问题求解只包含当前生成的列的模型,再由列生成子问题选择可能改进限制主问题目标函数值的列,并加入到限制主问题中。假设原问题是求最小化目标的0-1整数规划,初始化时,选择了四列构成规划问题的约束,得到根节点和初始解x(0),恰好是一个整数解,将最优解和对应的最优解更新。
2023-04-08 22:30:18
14
原创 离散优化的启发式迭代算法
本章介绍一些重要的、严格意义上真正的启发式算法。话不多说,进入正题。1构造型启发式算法第一类启发式算法是构造型搜索(constructive search)算法。它通常从每一个自由决策变量的离散分量开始,在每次迭代中,在当前决策解固定情况下,一个先前自由的变量固定为一个可行值。在最简单的情况下,当没有自由变量存在时,搜索过程停止。构造型搜索的主要难点在于如何选择下一个待固定的自由变量并且确定它的值...
2023-04-01 23:50:21
1484
原创 <span class=“js_title_inner“>离散优化的精确求解方法</span>
由于原问题一般是不等式约束,但以前我们开发过的算法(单纯形等)都是基于标准型线性规划,因此,初始化方法传入的是化为原问题松驰模型的标准型线性规划的系数矩阵、右边系数向量和目标系数向量,然后用一个可传参数prime_n来声明原问题的变量个数。包括,节点,母节点,该节点固定的变量,松驰解、松驰值、取整解和最佳解等,然后用一个字段“状态”动态更新该节点是否进行分支、终止等信息,并记录分支的次数(最多2次)。一些是含离散约束的线性规划,一些是含整数变量的线性规划,还有一些是连续与整数组合的非线性规划。
2023-03-30 20:38:27
15
原创 离散优化的精确求解方法
在上一篇我们列举了各式各样的整数与组合规划模型。一些是含离散约束的线性规划,一些是含整数变量的线性规划,还有一些是连续与整数组合的非线性规划。这些模型的求解方法也极为丰富,今天我们介绍精确优化(exact optimal)方法。传送门:离散优化模型1全枚举法求解如果一个模型只有少数离散变量,最有效的求解方法往往也是最直接的:列举出所有可能。这个称为全枚举法(total enumeration),它...
2023-03-19 20:34:17
2822
1
原创 离散优化模型
最短路及动态规划、网络流模型的决策变量被建模为离散变量,我们仍可以优雅解决这些问题。但现实中还有很多场景无法建模为这种特殊的离散模型。绝大多数的整数及组合优化模型实际上更有挑战性。今天这一篇我们对离散模型做个整体介绍,一共七种场景。1块状/批量线性规划及固定成本一大类离散优化问题是在线性规划基础上加上非此即彼的边际约束或目标函数。我们把这类问题叫做块状/批量线性规划(lumpy linear pr...
2023-03-12 18:00:35
1537
原创 <span class=“js_title_inner“>离散优化模型</span>
由于这些船只属于不同的区域,配备着不同的设备,使用成本也不同,给任何一个区域分配船只的时间和成本随着船只的不同而产生很大的变化。这些呼叫中心会处理许多地理区域发生的电话预订和订单,由于电话费也根据呼叫人的区域和接收中心的位置而显著变化,因此站点选择是非常重要的。该市可以分为不同的救护车服务区,每个救护车站的地点是从很多选项中选出的,使得该区域中的人口可以尽可能多地享受到呼叫救护车的迅速应答。目前为止我们介绍的分配问题都是要求每一个集合中的元素i恰好被分配给另一个集合中的一个元素j。
2023-03-12 18:00:35
14
原创 <span class=“js_title_inner“>离散优化模型</span>
由于这些船只属于不同的区域,配备着不同的设备,使用成本也不同,给任何一个区域分配船只的时间和成本随着船只的不同而产生很大的变化。这些呼叫中心会处理许多地理区域发生的电话预订和订单,由于电话费也根据呼叫人的区域和接收中心的位置而显著变化,因此站点选择是非常重要的。该市可以分为不同的救护车服务区,每个救护车站的地点是从很多选项中选出的,使得该区域中的人口可以尽可能多地享受到呼叫救护车的迅速应答。目前为止我们介绍的分配问题都是要求每一个集合中的元素i恰好被分配给另一个集合中的一个元素j。
2023-03-12 18:00:35
13
原创 网络流与图(四)
针对网络流模型的应用我们继续延申更多的变种,学习更多现实案例的应用。传送门:网络流与图(一)网络流与图(二)网络流与图(三)1最大流与最小割运输与分配问题是只有源集与汇集的特殊网络流模型,与之延申的还有一类特殊情景——最大流与最小割问题。我们先给定义,一个给定有向图G(V,A)上的最大流(max flow)问题即找到一个特定源节点s和一个特定汇节点t之间的最大可行流,要求满足其他所有弧上的流守恒条...
2023-03-04 23:40:52
1850
原创 <span class=“js_title_inner“>网络流与图(四)</span>
节点1至节点5代表一段时间内的现金,每个节点旁边的数字b表示各月的现金净需求(单位:千美元)。在此问题中,每个住宅的出行需求是不可替代的。我们必须分别从三个源出发的出行构建分离的商品网络,但商品仍然不是独立的,因为所有人共享渡船的2000个出行容量。同样的,也用类似的损耗来连接现金和债券节点,例如弧(2,7)代表第2周投资到债券的现金,损耗乘子a=0.998对应着0.2%的投资税。例如弧(3,4)的乘子a=1.005,因为在月利率0.5%下,第3个月投资的每一美元在一个月后都会变成1.005美元。
2023-03-04 23:40:52
10
原创 网络流与图(三)
经过两篇文章的篇幅,我们介绍了最小费用网络流模型以及解决的算法。今天我们介绍网络流模型的现实应用案例,并针对一些特殊的情景提出更高效的解决算法。传送门:网络流与图(一)网络流与图(二)1运输与分配问题运输问题是特殊的最小费用网络流模型,其中每个节点都是一个纯供给节点(所有弧都指出)或一个纯需求节点(所有弧都指入).它的标准形式可以表示为:举个贴近现实的例子——海军调动运输问题。美国海军兵团的军官调...
2023-02-25 21:00:55
705
原创 网络流与图(二)
上一节我们讲到了退化圈方向搜索算法,它能得到全局最优解。然而算法运行过程中需要选择一个可行改进圈方向,对于一个大型网络流来说,这并非容易的。我们需要找到在每次循环中确认可行改进圈方向或者证明不存在的方法。我们现在就来探讨这个问题传送门:网络流与图(一)1最优流消圈算法首先,我们需要定义残留有向图(residual digraph):举个例子,对于下面弧上数字表示费用、容量和流量的网络图,构建的残留...
2023-02-18 16:00:54
632
原创 网络流与图(一)
线性规划问题是运筹学最基本的问题,我们已经学过不少的解决方法,今天继续学习针对线性规划问题的另一种高效算法——网络流问题(network flow problem)1网络流模型为了更好介绍该算法来龙去脉,与以往一样,从案例切入——最优炉(OOI)最优炉股份有限公司(OOI)在位于威斯康星州和阿拉巴马州的工厂制造家用烤面包炉。制成的炉子会由火车运输到OOI位于孟菲斯和匹兹堡的两个仓库之一,而后被分销...
2023-02-10 23:30:42
2175
原创 定积分的概念及可积条件
微积分是高等数学的核心,包含微分和积分。前面几篇我们介绍了微分及其逆运算——不定积分(严格来说,不定积分属于微分模块)。传送门:微分与导数不定积分今天开始,我们进入积分模块。还是老样子,先从例子开始。1利用初等数学可以求出一般规则图形的面积,比如圆,正多边形等。如果要求曲线围成的面积,就需要用到高等数学的思想。比如下面一个例子:要求抛物线与x轴围成的面积(0<x<1),用初等数学显...
2022-12-04 20:30:06
3252
原创 单纯形法的补充与代码实现
线性规划中,我们介绍了三种求解算法——单纯形法、对偶理论和内点法。传送门:线性规划之单纯形法线性规划的对偶理论线性规划之内点法其中单纯形法要建立在标准型上,并且开始迭代要求有一个基本可行解。如果系数矩阵A规模较大,有时候比较难找到初始可行解。这时候需要用人工手段增加变量,来找到初始可行解。具体方法为:通过从每个约束行中选取系数在对应列向量中唯一非零,而且系数符号与右边项一致的变量作为基变量,可...
2022-12-03 17:00:40
1243
原创 最短路与动态规划(三)
1.动态规划可用项目管理上,形成项目网络图2.序贯决策需要注意准确定义阶段(stage)与状态(state)3.整数规划问题也用动态规划思想解决前两篇我们介绍了最短路问题的模型以及求解的算法,今天我们对最短路问题进一步扩展,讨论一下这种思想还可以应用到什么场景中。传送门:最短路与动态规划(一)最短路与动态规划(二)1CPM项目网络项目管理是现实中常见的企业工作,为了对项目进行有效的计划和控制,我们...
2022-11-12 15:30:41
657
原创 最短路与动态规划(二)
1.一对多的无负权环路最短路问题可使用贝尔曼-福特算法求解2.多对多的无负权环路最短路问题可使用弗洛伊德-瓦尔肖算法求解3.迪杰斯特拉算法适用于一对多且路为非负的最短路问题4.一对多的无环有向图也有最高效的算法继上一篇最短路问题,我们介绍几种利用动态规划思想开发的算法。传送门:最短路与动态规划(一)1一对多最短路算法先介绍第一个无负权环路的最短路算法,由贝尔曼(R.E.Bellman)和福特(L....
2022-11-06 16:30:56
466
原创 最短路与动态规划(一)
运筹学有时候面临的一种场景是求最短路(shortest path)问题:比如城市交通的网络设计,芯片的表面设计等。解决这类问题常用离散动态规划(discrete dynamic)方法。今天我们就来学习这种场景以及解决的算法。1抽象为模型我们用三个与现实场景十分相似的例子来介绍模型以及相关术语。利特尔维尔交通规划假设你是利特尔维尔城市的交通工程师,下图是该城市的市区街道规划图,图中标注了道路是单行道...
2022-11-05 21:30:34
957
原创 有理函数的不定积分
1.初等函数的不定积分不一定是初等函数2.有理函数的不定积分一定是初等函数,可以被积出来3.部分无理函数通过变量代换可以转化为有理函数至此,我们可以利用线性性质、换元积分和分部积分方法求解不定积分,但并非所有的不定积分都能被求解。比如下面的不定积分就无法求解:自然而然的,我们想要研究什么形式的不定积分是可以求解的。我们知道,不定积分和求导是互为逆运算,因为基本初等函数导数都是可求的,而初等函数是基...
2022-10-03 12:00:44
4490
原创 线性规划之内点法
1.内点法是在可行域内部进行搜索,最后收敛到最优解边界2.常用的内点法有仿射尺度法、对数障碍法和原始对偶法线性规划(LP)问题除了用单纯形法和对偶理论来求解,还有一种搜索的解法——内点法(interior point method),它是在可行域内部移动。今天我们来学习三种内点法,包括:仿射尺度法(affine-scaling),对数障碍法(log-barrier)和原始对偶法(primal-du...
2022-10-01 20:30:05
8649
原创 线性规划的对偶理论
1.理解LP问题的对偶变量含义2.熟悉LP规划模型的定性和定量灵敏度分析3.原问题与对偶问题是看同一个问题的不同视角4.强对偶性是KKT条件成立是充分必要条件5.掌握对偶单纯形法的详细流程,并体会与单纯形法的差异线性规划(LP)是最基础的运筹优化模型,我们已经对它有了初步的认识,并学会了第一种求解方法——单纯形法。今天,我们进一步分析它,考虑模型结果对输入参数或常量变动的灵敏度。我们要用到一个新的...
2022-09-10 22:30:22
3238
原创 线性规划之单纯形法
1.单纯形法建立在标准型线性规划上2.标准型线性规划其最优解必定在可行域顶点上3.单纯形法是在顶点上搜索最优解4.掌握修正单纯形法的迭代步骤上一篇我们把搜索算法的逻辑做了详细介绍,并且得到了一个结论:具有线性目标和凸可行集的优化模型,局部最优解就是全局最优解。而约束条件决定了可行域的性质,自然而然的我们想研究一下可行域是凸集的最简单条件,有下面的原理:如果优化模型的所有约...
2022-07-30 22:30:06
6969
原创 搜索理论基础
1.搜索算法是一种邻域算法,通常是局部最优点2.最佳步长沿着可行改进方向最大程度改进目标值,并保持可行的距离3.梯度信息提供了一个改进方向的代数检验方法4.凸可行集与线性目标保证了全局最优点5.3A算法是最基础的搜索算法上一篇我们介绍了“如何搭建运筹学模型”的核心思想,并介绍了运筹学模型的分类。但没有提及求解模型的方法,今天我们就针对“如何求解运筹学模型”做个综述,以后会...
2022-07-16 21:00:24
1115
原创 分部积分
1.分部积分是不定积分运算的第三种常用方法2.熟悉分布积分法的常用情形3.线性性质、换元积分和分布积分是三种计算不定积分的常用方法前两篇我们介绍了不定积分的线性性质和换元积分法,包括第一类换元积分和第二类换元积分,今天我们继续介绍另外一种积分运算方法——分部积分法分部积分法的原理很简单,利用微分的运算得到:这就是分部积分法的公式。该公式表明,若被积函数v关于积分变量u的不...
2022-07-04 00:00:36
22773
2
原创 换元积分
1.换元积分法包括第一类换元积分和第二类换元积分2.深入理解换元积分法推导的前因后果以及公式应用上一篇我们介绍了基本的不定积分公式,以及利用不定积分的线性性质求解稍微复杂的式子。今天我们继续介绍别的方法——换元积分法。1第一类换元积分法换元积分法有两类,先介绍第一类换元积分法:这里的证明是严格的,但是我们也有另外一种证明,它在逻辑上是不通的,但是在应用上是可以的,为什么这...
2022-07-03 14:30:32
1823
原创 不定积分
1.不定积分与导数是互逆概念2.不定积分表示的是一系列函数族,不是特指某一个函数3.不定积分具备线性性质1微分与积分互为逆运算。微分我们已经介绍过, 从这一篇开始,我们就进入积分的内容介绍。首先是不定积分,我们先定义原函数概念:可见,一个函数的原函数若存在,则它原函数有无穷多个,这些原函数是一个簇,它们任意之间相差一个常数.我们引进不定积分概念:这里需要强调的有三点,第一...
2022-07-02 12:00:24
2166
1
原创 方程近似解问题
1.能得到精确解的方法成为解析方法,比如典型的抛物线的根2.伽罗瓦理论表明,一般的一元5次以上方程没有根式解3.得到方程的近似解方法称为数值方法,最简单的是二分法4.牛顿迭代法是数值方法的一种,它利用切线进行快速收敛于零点从初中开始,我们就开始接触解方程,最简单的方程是一元二次函数,根据求根公式即可:这种求解出来的根是精确的,我们又称这种能得到精确解的方法为解析方法。这个...
2022-06-19 07:30:38
1137
原创 微分应用问题
1.利用一阶和二阶导数与函数性质可以判定函数极值问题2.利用微分一阶形式不变性可以解常微分方程3.函数作图要准确反应其拐点、单调性、极值点和凹凸性1极值问题与最值问题在微分中值定理第二篇我们提到了极值的概念,今天我们进一步归纳其极值问题——极值点的判定定理。第一点无需证明,结论显然,我们只证明(2):注意:根据上面的证明逻辑,若二阶不可判定,可以展开到更高阶进行判定。我们...
2022-06-18 18:00:55
456
原创 泰勒公式(二)
上一篇我们介绍了泰勒公式以及它的证明过程,今天我们来看看一些常用函数的泰勒公式。首先回顾一下:1 对于零点处的泰勒公式,我们又称为麦克劳林公式:通常情况下,我们只研究函数的麦克劳林公式,因...
2022-03-19 15:30:00
4461
协同过滤ItemCF相似度矩阵归一化的一个问题
2021-07-12
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅