自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(173)
  • 收藏
  • 关注

原创 Ubuntu20.24安装记录——安装VM-Tools

关闭虚拟机后,在 vmware菜单栏-虚拟机-设置-选项-右侧下“增强型键盘”选为“在可用时使用(推荐)”。②将CD/DVD, CD/DVD2, 软盘均设置为自动检测。③重启虚拟机便可正常显示。

2022-11-08 11:51:28 1072 1

原创 强化学习算法实践(一)——策略梯度算法

策略梯度是一种基于策略的算法,相比于DQN一类的基于价值的算法,它会直接显式的学习一个目标策略。梯度下降的基础知识可以参考之前的博客强化学习(六)策略梯度和《动手学强化学习》部分内容。[1] 《动手学强化学习》 https://hrl.boyuai.com/[2] David Silver: https://www.youtube.com/watch?v=KHZVXao4qXs&t=4609s我们假设目标策略πθ(a∣s)\pi_\theta(a|s)πθ​(a∣s)是一种随机策略,并且处处可微,θ\th

2022-10-27 20:36:52 1878

原创 强化学习算法(五)——Proximal Policy Optimization(PPO)

上文提到过策略梯度的模型优化过程,首先利用当前策略采样获得大量轨迹,然后根据轨迹计算梯度优化模型参数。因为每一轮策略模型更新后,采样获得的轨迹分布发生变化,所以上一轮采样的历史轨迹不能重用。在目标函数中增加了两种策略采样分布的距离(采集到的(s,a)对的距离),希望通过减小KL也就是分布差距实现在优化的同时两种分布不要差距过大。的差距不能太大,否则即使经过重要性采样转换后,所采集的数据的方差仍然具有较大差距。来改变采样数据的分布,这样我们就可以实现从其他策略采样获得的轨迹中学习了。

2022-10-20 11:20:01 1265

原创 强化学习实战(一)—— 使用BaslineDQN学习飞船降落

本文将介绍如何使用Stable Basline3中的DQN算法学习飞船降落问题。

2022-10-19 08:19:00 1215

原创 强化学习(五)——Value Function Approximation

强化学习基础(五)—— 价值函数近似

2022-10-18 10:08:20 692

原创 强化学习(四)—— Model-Free Control

强化学习基础—— Model Free Control

2022-10-11 21:47:33 441

原创 强化学习(三)—— Model-Free Prediction

强化学习基础——model based prediction

2022-10-10 21:49:18 601

原创 强化学习(二)——动态规划

强化学习基础——动态规划

2022-10-09 17:05:24 494

原创 Optimizer load_state_dict() problem

在训练MADDPG模型时,可以从环境中或者已有模型中加载获得初始的MADDPG模型。基于上面的解决思路,我们可以首先从环境中创建初始的maddpg模型。接着修改agent的。通过在网上查询,终于找到了一种可行的解决方案,也就是。相反的只需要重新创建一个优化器即可。代码,在加载模型时不加载优化器模型。终于,我们成功的将模型加载上了!将模型装在到gpu上了。但是我在加载后也通过。

2022-10-04 16:20:05 893

原创 RLChina 2022学习笔记——理论课一:机器学习和深度学习基础

RLchina2022暑假班学习笔记

2022-09-16 10:23:23 256

原创 深度学习——LSTM基础

记住所有信息。(1)定义与特性RNN之所以在时序数据上有着优异的表现是因为RNN在t时间片时会将t-1时间片的隐节点作为当前时间片的输入。(2)问题LSTM之所以能够解决RNN的长期依赖问题,是因为LSTM引入了门(gate)机制用于控制特征的流通和损失。(1)定义与特性设置记忆细胞,选择性的记忆。(2)前向传播选择性的保留历史记忆,吸收新的知识输出门oto_tot​:①ot=σ(Wxoxt+Whoht−1+bo);o_t=\sigma(W_{xo}x_t+W_{ho}h_{t-1}+

2022-07-04 20:50:32 566 1

原创 数据结构(十四)——排序算法汇总

文章目录1. 插入排序2. 希尔排序(shell sort)1. 插入排序(1)思想将待排序的记录按关键字大小插入前面已排序的序列中。注意:①只有比前一个元素[i-1]小的关键字才需要移位。②从后向前遍历排序号的序列,将大于当前关键字的元素后移,然后将关键字插入空出的位置。(2)效率时间复杂度:①最好的情况:O(n)O(n)O(n),原本有序的情况。②最坏的情况:O(n2)O(n^2)O(n2)空间复杂度:O(n)O(n)O(n)算法稳定性:稳定2. 希尔排序(shell

2022-06-29 16:40:46 385

原创 Cannot re-register id: PommeFFACompetition-v0问题解决

在pommerman环境中,期望修改基础环境时,因为env中本已经注册环境名而会出现报错。这样对于重复注册的环境,会先删除已经注册的环境并将新环境注册到register中。Cannot re-register id: MultiagentSimple-v0问题解决...

2022-06-21 22:55:33 286

原创 计算机网络——讨论三

(1)LS与DV算法的比较(2)OSPF与RIP的比较RIP相对简单,适用于较小的网络。OSPF复杂很多,可以在自洽系统内划分区域。将洪泛信息限制在每个区域内。

2022-06-17 20:36:32 319

原创 计算机网络——讨论二

文章目录(1)Tcp协议的发展过程的不同版本Tahoe:快速重传(3次冗余ACK)Reno:快速恢复(接收到丢失ACK后恢复到拥塞避免状态,超时后变为慢启动状态)问题:没有考虑到有多个包被丢弃的情况。New Reno:只有所有丢失的包重构穿并确认后才退出快速恢复状态。问题:1个RTT只能重传一个被丢弃的包SACK:增加了选择确认和选择重传(2)如果在无线网络中采用传统的TCP协议将面临什么样的调整,讨论解决方案。无线网络环境中,引发报文段丢失的原因多种多样。传统TCP不适用于无线网络。

2022-06-17 20:01:47 229

原创 线性代数复习总结——基本概念

文章目录1. 行列式2. 矩阵2.1 矩阵的运算2.2 矩阵的秩2.3 矩阵的变换参考资料:线性代数知识汇总1. 行列式2. 矩阵2.1 矩阵的运算矩阵与矩阵相乘:满足结合率和分配律,但不满足交换律,即AB≠BA;AB \neq BA;AB​=BA;转置矩阵:①(A+B)T=AT+BT(A+B)^T=A^T+B^T(A+B)T=AT+BT②(AB)T=BTAT(AB)^T=B^TA^T(AB)T=BTAT③(λA)T=λAT(\lambda A)^T=\lambda A^T(λA)T

2022-06-07 17:23:46 3545 1

原创 计算机网络(十七)——以太网与交换机

文章目录1. 以太网2. 交换机1. 以太网以太网是目前最为流行的有线局域网技术。以太网的成功有以下原因:造价低廉。应用最广泛的LAN技术。满足网络速率需求:10Mbps - 10Gbps(1)物理拓扑总线:①所有节点在同一冲突域。星型①中心交换机②每个结点一个单独冲突域。(2)特点无连接不可靠:接受网卡不向发送网卡进行确认。①差错帧直接丢弃采用二进制指数退避算法的CSMA/CD(3)以太网帧结构①前导码(8B)②目的MAC、源MAC地址(各6B)③类型④

2022-06-02 17:32:25 4361

原创 计算机网络(十七)——MAC地址与ARP协议

文章目录1. MAC地址2. 地址解析协议(ARP)2.1 源和目的处于同一个局域网内2.2 源和目的处于不同局域网内链路交换机运行在链路层,用于转发链路层帧。因此IP协议和IP地址不再适用于交换机。我们需要新的地址和协议用于链路层帧的转发。1. MAC地址(1)定义适配器(网络接口)的链路层地址。①用于标识链路层帧从那个接口发出,到达那个物理相连的接口。局域网中的每块网卡都有唯一的MAC地址。MAC地址长度为6字节,共有2482^{48}248个可能的MAC地址。①MAC广播

2022-05-29 18:04:00 3680

原创 数据结构(十三)——KMP算法

文章目录1. 朴素模式匹配算法2. KMP算法1. 朴素模式匹配算法(1)定义:在主串中找到与模式串匹配的子串,并返回字串的位置。思想:从主串的第一位开始,逐个判断子串是否匹配模式串。①当子串所有对应位置字符都和模式串相同时,查找成功,返回子串起始位置k。②如果有一个字符不匹配,停止检查当前子串。(2)代码若当前子串查找失败,需要回溯到下一个子串开始的位置,因此可以令i=k+1i=k+1i=k+1或者i=i−j+1i=i-j+1i=i−j+1(子串起始位置以1为单位从左往右增大,此时

2022-05-25 15:45:49 349 1

原创 算法分析与设计(一)——0-1背包问题

文章目录1. 背包问题1.1 0-1背包问题在简单复习完数据结构以后,便开始了算法复习。本博客将结合复习视频与LeetCode题目,面向机考算法复习。1. 背包问题1.1 0-1背包问题(1)问题描述在背包容量有限的情况下,带走总价值最多的物品。输入:背包容量Cn个商品组成集合,每个商品有两个属性viv_ivi​和pip_ipi​,分别表示体积和价格。约束条件最大化价值:max⁡∑i∈Spi\max \sum_{i \in S}p_imax∑i∈S​pi​背包容量限制:∑i∈Sv

2022-05-25 11:52:12 1748

原创 嵌入式系统——课堂笔记(十二)

文章目录1. 嵌入式系统中的计数器类模块1.1 DSP54定时器/计数器1.2 STC的PCA单元1. 嵌入式系统中的计数器类模块定时器计数器计时器PWM看门狗:保证系统在出现不可恢复错误时,能够自动让系统重启。波特率发生器1.1 DSP54定时器/计数器DSP:数字信号处理器。1.2 STC的PCA单元PCA:可编程计数器阵列。==...

2022-05-23 22:30:24 198

原创 Pytorch深度学习实践(一)——线性模型

文章目录参考资料1. 线性回归1.1 准备数据1.2 构建计算图1.3 构造损失函数和优化器1.4 训练过程本博客重点介绍深度学习代码框架,对于相关理论不进行更多的介绍。参考资料B站刘二老师Pytorch深度学习实践1. 线性回归采用深度学习Pytorch框架搭建线性回归模型通常需要四个步骤:准备数据构建计算图:①__init__()②forward()构建损失函数和优化器训练①向前传播–>损失计算–>向后传播–>更新。1.1 准备数据import tor

2022-05-23 18:47:33 218

原创 计算机网络(十六)——多路访问协议

文章目录1. 信道划分协议2. 随机接入协议3. 轮流协议1. 信道划分协议有三种常用的信道划分技术:时分多路复用(TDMA):结点在时间上共享广播信道。频分多路复用(FDMA):结点将信道划分为多个较小带宽的信道。码分多址(CDMA):结点对发送数据编码,根据编码接收特定数据。(1)时分多路复用(TDMA)定义:TDM将时间划分为多个帧(frame),并将帧划分为N个等长时隙(slot),在循环的TDM帧中结点在指定的时隙内传输分组比特。优点:①公平:N个结点等带宽的共享信

2022-05-22 21:53:51 3525

原创 计算机网络(十五)——数据链路服务

文章目录1. 概述2. 差错检测和纠正技术1. 概述网络层提供了两台主机之间的通信服务。链路层提供了将数据报通过单一通信链路从一个结点传送到相邻结点的功能。(1)术语结点:主机和路由器链路:相邻结点的通信信道①有线②无线③局域网帧:封装网络层数据报(2)链路层提供的服务组帧:封装网络层数据报,加上首部和尾部。链路接入:MAC协议用于协调多个节点的帧传输。差错检验和纠正:可能会由信号衰减和电磁噪声导致比特差错,传输一个有差错的数据报是没有必要的,可靠传输:对于高误码率的链路需要提

2022-05-21 16:38:32 1194 1

原创 Python——多线程编程

文章目录1. 概念2. 多进程完成多任务参考资料:黑马程序员python多线程编程教程1. 概念多任务:同一时间执行多个任务。①并发:一段时间交替执行多个任务。②并行:同时一起执行多个任务。进程:一个正在运行的程序。2. 多进程完成多任务(1)进程创建步骤创建进程对象:创建进程时必须指定目标任务名,也就是函数名。(2)进程执行带参数的任务(3)获得进程编号...

2022-05-21 11:00:43 298

原创 计算机网络(十四)——因特网的路由选择

文章目录1. 因特网自洽系统内部的路由选择1.1 开放最短路径优先(OSPF)2. ISP之间的路由选择随着路由器数量的增大,传统的距离向量算法是无法在如此大量的路由器中收敛的。同时每隔ISP管理着自己的路由器网络,希望按照自己的意愿运行路由器,而不是互联网中所有的路由器都运行一种路由选择协议。这些都可以通过自洽系统(Autonomous System)解决。(1)自洽系统通常一个ISP中的路由器和互联链路组成一个AS,某些ISP可以将网络划分为多个AS。一个自洽系统由其全局唯一的AS号标识。在

2022-05-18 16:03:06 2905

原创 数据结构(十二)——查找

文章目录查找1. 顺序查找2. 折半查找3. 分块查找查找(1)概念平均查找长度:所有查找过程中进行关键词的比较次数的平均值ASL=∑i=1nPiCiASL=\sum_{i=1}^nP_iC_iASL=∑i=1n​Pi​Ci​1. 顺序查找顺序查找可以分为一般的无序线性表查找和有序线性表查找。(1)无序线性表查找思想:从头到尾逐个比较关键字是否满足给定条件。int i;for(i=0; i<ST.length && ST[i]!=key; i++);retu

2022-05-15 17:33:18 148

原创 概率论复习总结——基本概念

文章目录1. 概率的性质2. 条件概率3. 古典概型4. 全概率与贝叶斯公式5. 事件的独立性6. 离散型随机变量分布律与分布函数7. 连续型随机变量概率的计算8. 连续型随机变量函数的分布常见分布二项分布与泊松分布均匀分布正太分布本博客主要用于记录概率论复习中的基础概念。1. 概率的性质加法公式:①对于任意事件A,B,有P(A+B)=P(A)+P(B)−P(AB)P(A+B)=P(A)+P(B)-P(AB)P(A+B)=P(A)+P(B)−P(AB);②P(A+B+C)=P(A)+P(B)+P

2022-05-15 15:20:20 1177

原创 数据结构(十一)——B树

文章目录1. B树及其基本操作1.1 概念1.2 基本操作2. B+树的基本概念重点B树的基本特点B树的建立、插入和删除操作B+树的基本概念1. B树及其基本操作1.1 概念B树又称多路平衡查找树,B树中所有节点的孩子个数的最大值称为B树的阶m。(1)性质一棵m阶B树或为空树,或为满足一下特性的m叉树:对任一节点,其所有子树高度相同。根节点的子树数∈[2,m],关键字数∈[1,m-1]。其他节点的子树数∈[[m/2],m],关键字数∈[[m-2]-1,m-1]。所有非叶节点的

2022-05-14 22:18:54 2584

原创 计算机网络(十三)——路由算法

文章目录1. 概述2. 路由选择算法2.1 链路状态路由选择算法(LS)2.2 距离向量路由选择算法(DV)2.3 DV和LS算法的对比网络层由数据平台和控制平台两个部分组成。接下来我们将对控制平台进行讨论。1. 概述重点转发表和流表是如何计算、维护和安装的。路由器的转发操作需要根据转发表将输入分组传输到合适的输出链路,因此转发表的初始化和更新很重要。有两种方式能够完成转发表的计算、维护与安装:路由器控制:每台路由器都运行一种路由选择算法。①路由器包含转发和路由选择两种功能。②路由器

2022-05-14 10:36:11 5292

原创 数据结构(十)——拓扑排序和关键路径

文章目录1. 拓扑排序2. 逆拓扑排序3. 关键路径1. 拓扑排序(1)定义AOV网:顶点表示活动,有向边<Vi,Vj><V_i,V_j><Vi​,Vj​>表示活动ViV_iVi​先于活动VjV_jVj​进行的一种关系。①AOV网一定是有向无环图。②任何顶点不能以自己作为其前驱或后继。拓扑排序:对有向无环图顶点的一种排序。使得若存在一条从顶点A到顶点B的路径,则在排序中顶点B出现在顶点A的后面。①理解为工程事件执行的先后次序。②一个AOV网可能有多种拓

2022-05-10 16:25:31 1780

原创 ns2安装和若干问题的解决方法

文章目录1. 安装与配置2. 安装nam3. 配置环境变量4. 检查是否能够成功运行参考资料在安装ns2的过程中遇到了很多问题,为了记录这些问题和为同样遇到这些问题的朋友提供思路,写下这篇博文。安装ns2和nam主要分为如下几个步骤:安装与配置安装nam配置环境变量检验是否能够成功运行在ns2和nam安装和配置过程中的主要问题集中在安装nam处。下面我将对这四个部分分别展开介绍。环境: VMware Ubuntu 20.041. 安装与配置主要是安装ns2和nam需要的环境。输入

2022-05-05 17:14:30 5206 5

原创 数据结构(九)——最短路径问题

文章目录1. 单元最短路径问题1.1 BFS1.2 Dijkstra2. 每对顶点间的最短路径2.1 Floyd带权路径长度:任意一对顶点间所需要经过的边的权值和。最短路径:带权路径长度最短的一条边。最短路径问题一般可以分为两类,每一类都有经典的算法求解:单源最短路径:BFS(无权)、Dijkstra(有权+无权)。每对顶点间的最短路径:Floyd(有权+无权+负值)。1. 单元最短路径问题1.1 BFS(1)算法思路对于无权图,可以通过一次BFS遍历就可以获得指定初始顶点的单源最

2022-05-05 15:28:29 5652 1

原创 计算机网络(十二)——IP协议

文章目录核心内容数据报格式分片IPV4地址NAT,网络地址转换IPV6网络层协议:路由选择协议(路由选择)、IP协议(转发、格式)、ICMP数据报格式:首部字段:20个字节head_len:以4个字节为单位IP数据报传输TCP段首部字段有40字节。分片:将长分组切小、不能裸分片。重组:目标主机重组IP地址:网络设备与网络接口的标识。主机可以只有1个IP地址,路由器有两个或两个以上的IP地址(与多个网络连接)子网:IP地址前缀一样(子网号)、分组收发不需要路由器(一条可达)

2022-05-04 16:28:36 2384

原创 数据结构(八)——最小生成树

文章目录1. 最小生成树1.1 概念1.2 Prim算法1.3 Kruskal算法1. 最小生成树1.1 概念生成树:包含所有顶点的极小连通子图。①增加一条边,会形成一条回路。②删除一条边,会变成非连通图。最小生成树:所有边权值之和最小的生成树。一般有两种算法获得最小生成树:Prim和Kruskal,它们都是基于贪心策略的。1.2 Prim算法1.3 Kruskal算法...

2022-05-04 15:05:18 624

原创 嵌入式系统——知识点串联

文章目录1. 冯诺依曼体系结构本节课程是按照冯诺依曼计算机体系结构为基础,自顶向下分析冯诺依曼体系结构的组成、优缺点、改进、以及对各个部分进行详细的介绍。1. 冯诺依曼体系结构核心内容二进制程序存储5个基本组成部分冯诺依曼体系结构如下图所示:冯诺依曼体系结构有五个组成部分:运算器控制器存储器:数据存储器、程序存储器输入设备输出设备CPU通过总线与存储器和I/O设备相关联,总线一般包括:数据总线(DB)地址总线(AB)控制总线(CB)指令和数据用二进制存储在存

2022-05-01 13:38:32 734

原创 计算机网络(十一)——导论与路由器工作原理

文章目录1. 网络层的概述核心内容1. 网络层的概述(1)功能结构网络层用于提供主机与主机之间的逻辑通信,源主机网络层接收来自运输层的报文段,将其封装为一个数据报并向相邻的路由器发送数据报。接收方的网络层接收来自相邻路由器的数据报,提取出报文段交付给运输层。为此需要提供转发和路由选择两个功能。网络层能够被划分为两个相互作用的部分,数据部分和路由部分:数据部分的主要作用:转发,即分组从输入链路接口转发到合适的输出链路接口。控制部分的主要作用:路由选择,即决定从源主机到目的主机,分组所采用的路由或

2022-04-26 22:57:43 1290

原创 数据结构(七)——图的遍历

文章目录1. 图的遍历1.2 广度优先搜索重点深度优先遍历广度优先遍历图遍历算法的应用:拓扑排序、连通性问题、关键路径。1. 图的遍历图的遍历是指从图的某一个顶点出发,按照某种搜索方法沿着图中的边对图中的所有结点访问一次且仅一次。1.2 广度优先搜索(1)核心问题搜索相邻结点判断已经访问过的结点辅助队列如何处理非连通图(2)思想广度优先搜索类似于二叉树的层次遍历算法。首先访问起始顶点,接着访问其未被访问过的邻近顶点。再从被访问的顶点出发,访问它未被访问过的邻近结点。

2022-04-25 11:56:01 1198

原创 嵌入式系统——课堂笔记(十一)

文章目录1. 输入输出1.1 并行接口1.2 计数器类接口1.3 中断系统1.4 串行类接口1. 输入输出1.1 并行接口51并行接口: P0, P1, P2, P3。STC系列并行接口: 并口电气特性可设定为四种模式,通过PxM1, PxM0设定①准双向(标准51)②推挽输出③仅输入④漏极开路输出1.2 计数器类接口1.3 中断系统1.4 串行类接口...

2022-04-20 11:45:30 1537

原创 数据结构(六)——图的基本概念

文章目录1. 基本概念2. 存储方式核心深度优先与广度优先图的基本概念及性质图的存储结构及其特性图的遍历1. 基本概念简单图:①不存在重复边;②不存在顶点到自身的边。多重图:多重图与简单图是相对的。完全图:①无向图:有n(n−1)/2n(n-1)/2n(n−1)/2条边的无向图称为完全图,任意两个顶点之间都存在边。②有向图:有n(n−1)n(n-1)n(n−1)条边,任意两个顶点之间都存在方向相反的两条弧。2. 存储方式...

2022-04-19 16:05:10 599

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除