- 博客(13)
- 收藏
- 关注
原创 强化学习(四)-DQN实现
Example of DQN in Pytorch回顾DQN原理DQN使用神经网络来拟合动作-状态价值函数即QQQ函数,同时为了使训练效果更稳定,加入了经验重放和固定目标机制。经验重放指的是每次将转移元组(st,at,rt,st+1)(s_t,a_t,r_t,s_{t+1})(st,at,rt,st+1)存入缓冲器容器DDD中,然后从容器中随机采样,用作训练数据;固定目标是指使用两个网络,一个用作目标网络,一个用作当前的评估网络,目标网络的参数更新滞后于评估网络,使得评估网络更好地接近目
2021-04-14 15:45:14 1646 2
原创 强化学习(三)——价值函数近似
Value Function Approximation上一节介绍的求解强化学习问题的方法都归属于表格型方法,当问题规模很大时,求解会遇到几个问题:太多的状态或动作需要保存在内存中单独地求解某个状态的价值函数太慢因此,当强化学习规模较大时,通常使用一些函数来近似价值函数,通过评估这些拟合函数来求解问题。其表达形式如下:V^(s,ω)≈V(s)Q^(s,a,ω)≈Q(s,a)π^(a,s,ω)≈π(a∣s)\hat{V}(s,\omega)\approx{V(s)} \\\hat{Q}(s,
2021-04-10 20:05:14 1268
原创 强化学习(二)——无模型环境的评估与控制
Model Free Method第一节的求解MDP的方法都需要知道MDP的环境参数,即转移矩阵PPP和收益信号RRR。但实际上很难知道MDP的参数或计算时很复杂,为此,需要考虑Model-free的方法来求解。1. Model-free模型的预测Model-free模型的预测:在不知道模型参数的情况下,估计给定当前策略π\piπ下的期望的回报。主要有以下两种方法:蒙特卡洛策略估计时序差分学习(Temporal-Difference-learning)蒙特卡洛策略评估(Monte-Car
2021-04-09 15:46:03 501 1
原创 强化学习(一)——马尔科夫决策过程(MDP)的评估与控制
MDP(Markov Decision Process)贝尔曼方程(Bellman Equation)贝尔曼方程由MRP(Markov Reward Process)中得出,描述状态之间价值函数的计算关系:V(s)=R+γ∑s′∈SP(s′∣s)V(s′)V(s)=R+\gamma\sum_{s'\in{S}}{P(s'|s)}V(s')V(s)=R+γs′∈S∑P(s′∣s)V(s′)此为强化学习的一个重要基石。贝尔曼期望方程(Bellman Expectation Equat
2021-04-08 18:14:35 841
原创 编程新技术实务实验二和实验四
编程新技术实务实验二和实验四实验二和实验四的github链接地址实验二实现简介前端有3个网页:提交增加/删除表单页面:HelloWorld.vue显示操作结果页面:Operate.vue显示数据库数据页面:DBshow.vue后端分为4层:接口层,接受前端请求:controller实体类层:model服务调用层:service数据库操作执行层:mapper开发工具vue脚手架 + vscode 网页前端开发spring-boot + vscode 后端开发Tomcat
2021-01-23 20:31:38 467
原创 lex/flex yylineno一直为1的两种解决办法
lex/flex yylineno一直为1的两种解决办法起因在使用lex做词法分析的demo时,发现错误并不能准确地定位到行,比如一个语法错误发生在第三行,但yylineno显示为1;于是我又更改了文件,让错误出现在其它行,发现yylineno仍然显示1。现象描述其实这是一个类似flex自动设置的东西,即flex有能力管理yylineno,但因为这个开销可能比较大,然后并没有将更新yylineno设置为默认选项。针对此,可以有以下两种解决方式。方法1在.l文件设计的时候,打开针对此选项的拓展,即
2020-11-03 10:09:07 2615
原创 《数值计算方法》第二版习题2第15题
《数值计算方法》第二版习题2第151515题题目:设函数f(x)f(x)f(x)在[a,b][a,b][a,b]上至少三阶连续可微,p∈(a,b)p\in(a,b)p∈(a,b)为f(x)f(x)f(x)的一个mmm重零点,求一个λ\lambdaλ值使改进的NewtonNewtonNewton下山法xk+1=xk=λf(xk)f′(xk)x_{k+1}=x_{k}=\lambda\frac{f(x_k)}{f'(x_k)}xk+1=xk=λf′(xk)f(xk)至少是二阶收敛的。求解
2020-10-18 12:01:00 1058 1
原创 决策树(Decision Tree)
决策树(Decision Tree)决策树是一种自顶而下的树形结构。每一个节点为一种属性,利用该属性来做出判断。模仿了人类做出决定时的思考流程。显然,对于同一数据集,每个节点考虑的属性不同,生成的树的形状是不一样的。那么我们在实际生成决策树的时候应该选择哪一棵树呢?为此,可以利用奥卡姆剃刀原理——简单有效原理。即如果有两个模型的性能是一样的,我们倾向于选择简单的那个模型。反过来说,在保证分类效果的前提下,我们应该选择结构上最简单的决策树模型来做分类。1.ID3算法(Iterative Dichotom
2020-09-08 02:45:28 405
原创 朴素贝叶斯(Naive Bayes)
朴素贝叶斯(Naive Bayes)1.贝叶斯公式——后延概率与先导概率的关系P(A∣B)=P(A)P(B∣A)P(B)P(A|B)=\frac{P(A)P(B|A)}{P(B)}P(A∣B)=P(B)P(A)P(B∣A)2.朴素贝叶斯公式推导利用此公式推导NB表达式过程如下,记MAP=MAP=MAP=Maximum A posterior。首先目标式为在不同条件a1,a2,…,ana_1,a_2,\dots,a_na1,a2,…,an下,ω\omegaω发生的概率的最大值时的ωi\o
2020-09-06 11:56:19 133
原创 数学模型 商人过河问题 C++实现
数学模型 商人过河问题 C++实现问题描述 将过河问题抽象为一个数学问题,安全渡河即为一个多步决策问题,在安全的前提下,每一步都考虑船上的商人与随从人数情况。 决策问题通常从考虑状态,决策,状态转移方程入手。状态 设sk=(xk,yk)s_k=(x_k,y_k)sk=(xk,yk)表示第kkk次渡河前此岸的商人数与随从数,显然有xk,yk=0,1,2,3;k=1,2,⋯x_k,y_k=0,1,2,3;k=1,2,\cdotsxk,yk=0,1,2,3;k=1,2,⋯。
2020-07-03 11:35:07 2008
原创 迭代回溯的图最大团问题(可得到多组最优解)
迭代回溯的图最大团问题(可得到多组最优解) 网上关于最大团问题的回溯解法,大多为递归回溯,近日老师布置一个作业,采用迭代回溯的框架解决最大团问题(MCP),且要求多组解,有一定难度。文章目录迭代回溯的图最大团问题(可得到多组最优解)关于最大团回溯基本思想迭代基本框架`V1.0`约束函数`constraint()`限界函数`bound()`迭代函数`MCP()`试图得到多组解迭代基本框架`V2.0`(得多组解)迭代函数MCP()输出结果完整代码如下时间复杂度关于最大团 简单来说,团就是一个无向
2020-05-26 20:01:38 2163
原创 集合划分问题时间复杂度分析
集合划分问题给定正整数n,mn,mn,m,计算出nnn个元素的集合{1,2,⋯ ,n}\{1,2,\cdots,n\}{1,2,⋯,n}可以划分为多少个不同的由mmm个非空子集合组成的集合。(1)解题原理 根据题目所给的划分规则,设s[n][m]s[n][m]s[n][m]为nnn个元素划分为mmm个非空子集的集合的个数,则我们从两方面来考虑这个数量的由来: (1)固定n−1n-1...
2020-04-29 01:05:32 3219
原创 深入理解计算机系统第二版 CSAPP2e 家庭作业 2.84
2.84由题:bias=2k−1−1bias=2^{k-1}-1bias=2k−1−1(1)5.010=101.02=1.0102∗225.0_{10}=101.0_2=1.010_2*2^25.010=101.02=1.0102∗22 故阶码、尾数、小数、值分别为:E=2,M=1.010,f=010,V=1.010∗22E=2,M=1.010,f=010,V=1.010*2^2...
2020-04-11 21:42:40 466
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人