自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

原创 马尔科夫决策过程(MDP)学习笔记

1. 概述 MDP由一个代理agent和一个环境 E ,一组可能的状态 S ,一组可用的行动 A ,和奖励函数 r: S×A→r 构成。 在离散时间的步骤中,代理agent不断地从与环境的交互中 学习并作出决策。在每个时间步 t ,代理观察环境的当前状态,记作 st∈S ,并根据策略π选择执行一...

2019-07-30 15:12:47

阅读数 27

评论数 0

原创 强化学习 之 DDPG

简介 Deep Deterministic Policy Gradient (DDPG) 是Google DeepMind 提出的一种使用 Actor Critic 结构,但是输出的不是行为的概率,而是具体的行为,用于连续动作的预测。 DDPG 结合了之前获得成功的 DQN 结构,提高了Act...

2019-07-30 00:35:03

阅读数 55

评论数 0

原创 强化学习 之 Actor Critic

简介 Actor Critic是一种结合体算法: (1)Actor 的前生是 Policy Gradients,这能让它毫不费力地在连续动作中选取合适的动作,而 Q-learning 做这件事会瘫痪; (2)Critic 的前生是 Q-learning 或者其他的 以值为基础的学习法,能进行单步更...

2019-07-29 16:54:23

阅读数 44

评论数 0

原创 强化学习 之 Policy Gradient

简介 强化学习是一个通过奖惩来学习正确行为的机制。 其中,Q learning、Sarsa、Deep Q Network等通过学习奖惩值, 根据自己认为的高价值选行为; Policy Gradients则不通过分析奖励值,直接输出行为,即接受环境信息 (observation)后,他要输出不...

2019-07-29 14:26:18

阅读数 51

评论数 0

原创 数学建模 种群竞争模型 学习笔记

模型背景 应用场景 种群竞争模型 例如 s1=0.5,则表示对于供养甲的资源来讲,单位数量的乙的消耗为单位数量的甲的0.5倍,即表示乙对于该资源的占有能力是甲的0.5倍(即竞争力弱) 仿真结果及分析 (1)设置自然增长率 r1=r2=1 (2)改变自然增长率 r1=r2=0.3 (3)...

2019-07-24 20:41:54

阅读数 26

评论数 0

原创 数学建模 模拟退火模型 学习笔记

模型背景 算法简介 举例 模拟退火模型 模拟要求 (1)初始温度足够高 (2)降温过程足够慢 (3)终止温度足够低 计算步骤 应用场景 例 结果分析 注:模拟退火模型只能对TSP问题进行一个近似的求解,不能完全精确地得...

2019-07-24 20:11:58

阅读数 57

评论数 0

原创 数学建模 图论模型-Floyed算法 学习笔记

算法思想 举例 仿真结果:

2019-07-22 21:48:16

阅读数 51

评论数 0

原创 数学建模 图论模型-Dijkstra算法 学习笔记

Dijkstra算法在学习数据结构的图论部分已经有过一定的了解,可参考:图论基础 简介 算法步骤 举例:求从v0到v11的最短距离 每次从已纳入的部分出发,将到起始点总距离最小的那个新的点纳入。 此处使用带权邻接矩阵更新距离: a[i][j]表示vi到vj的距离,举个例...

2019-07-22 21:36:24

阅读数 47

评论数 0

原创 数学建模 灰色预测 学习笔记

简介 灰色系统理论 灰色系统的特点 灰色预测 灰色生成 (1)累加生成 例如: 累加生成公式 GM(1,1)模型 推导过程: 即有下面4个关系式: 整理得: 求解预测值: 精度检验 计算误差序列e(...

2019-07-22 20:57:02

阅读数 37

评论数 0

原创 数学建模 多属性决策 学习笔记

简介 加权算术平均算子 实例 注意,在对属性值进行打分之前,需要进行归一化处理: 归一化处理 (1)效益型:越大越好 (2)成本型:越小越好 (3)固定型:尽量接近某个固定值α (4)偏理型:尽量偏离某个固定值β (5)区间型:尽量接近某个固定区间[a...

2019-07-19 23:12:14

阅读数 73

评论数 0

原创 数学建模 层次分析法 学习笔记

简介 层次分析法适用于各种评价类的问题,一般用于确定评价指标、形成评价体系等。 考虑角度 例题引入 分析 最后,我们得到景色、花费、居住、饮食、交通这五个指标。此时若一次性考虑五个指标之间的关系,则容易考虑不周到。 解决方法:分治,即两两比较,最终根据两两比较的结果...

2019-07-18 17:42:56

阅读数 73

评论数 0

原创 强化学习 之 Deep Q Network

DQN简介 DQN是一种融合了神经网络和 Q learning 的方法,因为传统表格形式的强化学习有这样一个瓶颈:当问题过于复杂,状态过多时,全用表格来存储它们是不现实的。 使用神经网络,我们就可以将状态和动作当成神经网络的输入, 然后经过神经网络分析后得到动作的 Q 值,这样我们就没必要在表...

2019-07-18 15:18:17

阅读数 36

评论数 0

原创 强化学习 之 Q-Learning & Sarsa

Q-Table 这两种强化学习算法都使用Q表记录在每一个state下选择每一个action的值,并通过进入到下一个state’中所获得的反馈reward(可正可负)来更新Q表对应的(s,a)的值。 Q-Learning 原理分析: 实现步骤: 1.初始化Q-Table(Q表是一张二维...

2019-07-08 18:02:52

阅读数 21

评论数 0

提示
确定要删除当前文章?
取消 删除