自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(25)
  • 收藏
  • 关注

原创 双系统ubuntu20.04不能外接显示器的解决办法

首先确定是不是英伟达显卡驱动,如果不是的话,设置里找到附加驱动,更改为NVIdia类型的驱动,更改完成之后重启这里大部分电脑都可以了,如果不行。

2025-04-06 21:01:02 920

原创 10天速通强化学习-009--DDPG、SAC、TD3

相较于DPG(确定性梯度算法)来说,加入了目标网络和软更新的方法,使得训练更稳定。Twin Delayed Deep Deterministic policy gradient(几个关键字:双延迟,深度,确定性策略,梯度)在DDPG的基础上改进的用于解决连续控制问题的在线(on -line)异策(off-policy)的深度强化学习算法。本质上,TD3算法就是将DQN算法的思想融入到DDPG中。所以说TD3一共6个网络将这些算法进行一个总结。

2025-04-06 20:43:39 880

原创 px4+mavros+ros+Prometheus

安装ubuntu20.04修改源安装搜狗。

2025-03-25 11:39:56 1177

原创 10天速通强化学习-008--TRPO、PPO

TRPO和PPO都是在线策略算法,需要注意的是即时优化目标中包含重要性采样的过程但是也只是用到了上一轮策略的数据,而不是所有策略的数据。

2025-03-18 21:54:43 735

原创 关于一些C++常见的一些问题

关于debug,内存检测,静态库和动态库的东西

2025-03-10 15:15:41 149

原创 C中条件编译

C中条件编译和宏运算

2025-03-10 14:57:04 164

原创 bash指令的一些小注意点(文件无法导入,截屏输入)

相关学习网站:

2025-03-10 14:48:54 189

原创 C++新特性

typedef 旧的类型名 新的类型名**被重定义的类型并不是一个新的类型,仅仅只是原有的类型取了一个新的名字。**和以前的声明语句一样,这里的声明符也可以包含类型修饰,从而也能由基本数据类型构造出复合类型来。C++11中规定了一种新的方法,使用别名声明(alias declaration)来定义类型的别名,即使用using。在使用的时候,关键字using作为别名声明的开始,其后紧跟别名和等号,其作用是把等号左侧的名字规定成等号右侧类型的别名。

2025-03-10 14:41:31 844

原创 C++多线程常见问题

互斥锁是一种用于多线程编程的同步原语,主要作用是保证共享数据在任一时刻只能被一个线程访问,以避免数据竞争和不一致的问题。1234567互斥锁提供了一种机制,确保在任何给定时间点只有一个线程可以访问临界区,即一段代码或数据,它被多个线程共享,并且在任何给定时间只能由一个线程执行或访问。互斥锁具备两种状态:已锁定和未锁定,当一个线程获得了互斥锁的锁定状态时,其他试图获取该互斥锁的线程将被阻塞,直到持有锁的线程释放互斥锁。

2025-03-10 14:40:51 745

原创 数据结构和算法--仅仅用于理解里面的术语,入门级别

黑马前29节文件夹路径不区分大小写E:dir:查看所有文件cd 目录 :进入cd… 返回上一级cd 目录1\目录2cd\ 回到根目录cls 清屏exit 退出打开文件夹必须用cd 查找,但是文件不用,直接输入即可上下键使用上次使用的命令操作系统中一个用来存储有关操作系统或应用程序配置信息的动态值。这些变量的值在操作系统级别可被访问,它们对于程序的运行和系统行为具有重要的影响。简单来说:在任意目录下都可以打开指定 的软件,或者可执行程序,音频等,就可以把软件的路径配置到环境变量中例如:把本

2025-03-10 14:39:57 2022

原创 多线程--参数传递之间的关系

在C++中创建线程时,传递参数的方式会影响参数的生命周期、线程的安全性和性能。

2025-03-10 14:38:45 475

原创 bash---括号之间的区别

bash括号区别在Bash中,小括号(), 中括号[], 大括号{}的用途和功能是不同的,它们各自有特定的语法和含义。()在Bash中,小括号主要用于创建子shell。在小括号中的命令会在一个子shell中执行,这意味着其中定义的变量和环境不会影响到主shell。这段代码中,小括号内的cd命令只在子shell中生效,不会改变主shell的当前工作目录。[]中括号在Bash中通常用于条件测试和数组定义。注意:中括号内部的空格和换行符很重要,语法必须正确才能正常工作。{}

2025-03-10 14:36:09 648

原创 linux基础

vmware:centos:ubuntu:打包安装在U盘。

2025-03-10 14:32:07 437

原创 线程池-C++

Task 结构中的 function 指针通常指向一个在代码中静态定义的函数,或者是一个现有函数的函数指针,而这个函数并不是动态分配的内存。我们使用线程的时候就去创建一个线程,这样实现起来非常简便,但是就会有一个问题:如果并发的线程数量很多,并且每个线程都是执行一个时间很短的任务就结束了,这样频繁创建线程就会大大降低系统的效率,因为频繁创建线程和销毁线程需要时间。这些任务被放入任务队列,任务队列相当于生产者消费者模式中的缓冲区。线程池的使用者,也就是调用线程池函数往任务队列中添加任务的线程就是生产者线程。

2025-03-10 11:34:11 1023

原创 vdcode调试

和tasks.json是Visual Studio Code(VSCode)中两个重要的配置文件,它们在开发过程中起着不同的作用。

2025-03-10 11:33:12 809

原创 C++11并发与多线程笔记

在你的代码中,使用std::ref是必要的,因为你需要在新线程中引用并修改myprom,而不是创建它的一个拷贝或将其所有权转移。因此,std::ref可以确保myprom作为引用被传递,而mythread中的修改能够影响到main函数中的myprom。一、补充一些知识点1.1 虚假唤醒:notify_one或者notify_all唤醒wait()后,实际有些线程可能不满足唤醒的条件,就会造成虚假唤醒,可以在wait中再次进行判断解决虚假唤醒。

2025-03-10 11:31:44 937

原创 文献阅读-无人机自主导航

文献汇报

2025-03-10 10:48:58 407

原创 10天速通强化学习-007--策略梯度、Actor-Critic

Q-learning(有限状态),DQN(连续状态) , DQN改进算法都是的方法,并没有存在一个显式的策略,所以还有另一种方法----第一步:策略参数化假设目标策略是一个随机性策略,并且处处可微,其中是对应的参数。第二步:分析输入和输出输入:某个状态输出:一个动作的概率分布策略函数:线性模型或者神经网络模拟第三步:分析目的寻找一个最优策略并最大化这个策略在环境中的期望回报,这个期望回报也就是策略学习的目标函数:该公式衡量的是基于参数的策略在环境中所能获得的期望回报。

2025-03-10 10:15:35 839

原创 10天速通强化学习-006--DQN、Double DQN、Dueling DQN

Double DQN :缓解了DQN中对Q值的过高估计Dueling DQN:能够很好地学习到不同动作的差异性,动作空间大时非常有效这可以作为创新点来发掘,记住从DQN到Double DQN (解决现有问题Q值过高)和 Dueling DQN(解决不同动作模式的差别)的转变。r+r+r+%5Ceta。

2025-03-03 19:22:34 2205

原创 10天速通强化学习-005--Dyna-Q算法

回顾一下学过的算法,我i们这里做一个图首先说一个概念,大家可能会将奖励和奖励函数混为一谈,他们不是一个概念奖励是在强化学习等场景中,环境对智能体所采取的动作给出的反馈信号,用于表示该动作的好坏程度,是一个数值。比如在机器人导航任务中,成功到达目标给予正奖励,碰到障碍给与负奖励。--------即时的反馈奖励函数;是一个映射,将 智能体所处的状态s ,a, 下一个状态 s' 映射为一个奖励值,是一个数学函数,用于定义在不同情况下智能体应该获得的奖励。----决定学习目标和行为策略。

2025-03-01 16:21:58 1004

原创 10天速通强化学习-004--(多步)Sarsa、时序差分、Q-learing、在线离线策略

个人理解:Sarsa算法和多步Sarsa算法:使用越多的即时奖励来求解,,得到的值就越接近当前序列的真值(当前序列的真值就是蒙特卡洛算法中遍历所有状态得到的真值),也就说这两个算法,始终都是在求解某一个序列的真值。求完该序列之后来更新Q(s,a)--其实就是策略,才以此进行更新下一个序列(根据上一个策略的Q(s,a)来选取下一个策略的动作)。最后更新到新序列的真值最大。就完成了目标。

2025-02-28 22:51:43 1790

原创 文献阅读记录--仅供参考

目的:在动态高速风中执行安全精确的飞行机动对于无人驾驶飞行器 (UAV) 的持续商品化非常重要。然而,由于各种风况之间的关系及其对飞机机动性的影响尚不清楚,因此使用传统的控制设计方法设计有效的机器人控制器具有挑战性基于学习的方法,通过深度学习整合预训练的表示,从而允许快速在线适应方法来源:Neural-Fly 建立在两个关键观察结果的基础上,即不同风条件下的空气动力学具有共同的表示,并且风的特定部分位于低维空间中具体方法:域对抗不变元学习 (DAIML) 来学习共享表示,仅使用 12 分钟的飞行数据。

2025-02-28 14:11:16 852

原创 10天速通强化学习-003--策略迭代、价值迭代

本节中需要明白的概念:上一节中我们讲到最优状态价值函数和最优动作价值函数,我们要理解,最优状态价值函数是所有的动作价值函数与其概率相乘的结果,所以可以很自然的想到,最优状态价值函数和最优动作价值函数的大小关系,一般来说前者大,若是后者大,则前者取后者(有点废话了)还有一点要明白:策略变化,状态价值函数和动作价值函数会跟着变化。

2025-02-26 16:29:09 1159

原创 10天速通强化学习-002--MRP、MDP、蒙特卡洛、占用度量、状态访问分布、贝尔曼最优方程

马尔可夫过程---MRP(马尔可夫奖励过程)----MDP(马尔可夫决策过程)

2025-02-23 22:27:27 798

原创 10天速通强化学习-001--MAB、贪心、上置信界、汤普森采样

数据的稳定性,监督学习数据稳定不变,强化学习数据从外界获得一直在变。

2025-02-21 14:59:01 1170

cmake 理解,文件类型无法转存发布

关于cmake的具体生成过程

2025-03-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除