- 博客(71)
- 收藏
- 关注
原创 机器学习-DeepSeekR1
DeepSeek-R1:通过强化学习激励大语 言模型的推理能力 摘要我们推出了首代推理模型DeepSeek-R1-Zero和DeepSeek-R1。作为基础训练阶段,DeepSeek-R1-Zero通过大规模强化学习(RL)训练,无需监督微调(SFT),展现出卓越的推理能力。通过强化学习,该模型自然形成了诸多强大且引人入胜的推理行为。然而,其存在可读性差、语言混杂等挑战。为解决这些问题并进一步提升推理性能,我们推出了采用多阶段训练和冷启动数据的DeepSeek-R1。DeepSeek-R1在推理任务上的表
2025-12-20 22:14:21
921
原创 机器学习-Attention is All you need
当前主流的序列转导模型都基于包含编码器和解码器的复杂循环或卷积神经网络。表现最佳的模型还会通过注意力机制连接编码器与解码器。我们提出了一种全新的简单网络架构——Transformer,该架构完全基于注意力机制,彻底摒弃了循环结构和卷积运算。在两项机器翻译任务的实验中,这些模型不仅质量更优,还具有更高的并行化能力,且训练时间大幅缩短。我们的模型在 WMT 2014英德翻译任务中取得28.4 BLEU分数,较现有最佳结果(包括集成模型)提升了超过2 BLEU。在 WMT 2014英法翻译任务中,经过8个GPU连
2025-12-20 20:49:00
768
原创 机器学习-特征选择
特征选择 首先从特征全集中产生一个特征子集,然后用评价函数对该特征子集进行评价,评价结果与停止准则进行比较,如果评级结果比停止准则好就停止,否则就继续产生下一组特征自己,选出来的特征子集一般还要验证其有效性。其在空间采样,样本划分中的表现较多,同时噪声影响大,因此需要进行特征降维。修斯现象说明,随着特征数量的增加,分类器的性能也会提高,直到达到最佳特征数。特征选择能剔除不相关和冗余特征,从而达到减少特征个数,提高模型精度,减少运行时间的目的。2.特征个数越多,会有维度灾难,模型越复杂,推广能力也会下降。
2025-12-20 13:05:55
327
原创 机器学习-非度量方法
SVM NN等分类方法是基于连续实数或离散值的特征向量的模式识别问题,这类问题都涉及了向量间距离度量的问题,比如KNN中直接使用了点之间的距离,N中隐含了距离信息,如果两个输入向量足够接近,那么输出也会很相似,SVM让各个点离超平面的距离最远。但是现实中的模式识别问题,样本属性不一定是可度量的,这种属性没有相似概念,也没有次序关系。非度量语义属性表示的模式常用属性d元组。另一种方式就是用不等长语义属性的列表。上面就是一个树的生成,但是用用的判定树生成,是如何根据训练样本来生成一棵树呢?
2025-12-19 16:02:42
232
原创 机器学习-非线性分类器 ANN
反向传播模型也称作b-p模型,是一种用于前向多层的反向传播学习算法,他可以对组成前向多层网络的各人工神经元之间的连接权值进行不断的修改,从而使前向多层网络能够将输入他的信号变成所期望的输出信息,因此被称作学习方法。因此bp的网络结果是一个前向多层网络。首先把连接权和阈值初始化为较小的非零随机数,然后把有n个连接权值的输入送入网络,经加权运算处理,得到的输出如果与所期望的输出有较大的差别,就对连接权值参数按照某种算法进行自动调整,经过多次反复,直到所得到的输出与所期望的输出间的差别满足要求为止。
2025-12-19 15:08:17
515
1
原创 机器学习-线性判别函数
设定判别函数形式,用样本集确定参数,使用准则函数,表达分类器应该满足的要求,这些准则的最优并不一定于错误率最小相一致:次优分类器。理论上可以证明,PCA在数据单个高斯分布是最佳的,有利于与表示数据,在分类问题中,不同类别的分布不能相同。简单来说这节就是线性分类器,从基于概率密度估计的分类器设计到直接基于样本的直接分类器设计;首先选定判别函数类和一定的目标,利用样本集确定出函数类中的某些未知参数,使所选的准则最好。PCA的核心思想是方差最大+相互正交,两个均值之间的距离,和两个标准差。一、直接确定判别函数。
2025-12-18 17:14:28
154
原创 机器学习-贝叶斯公式
观点2:过拟合的另一个原因是真实世界中对数据的结果产生贡献的因素太多而无法建模,跟噪声不同,这些偏差是另外的因为集体贡献的结果,不是模型所能解释的。最大似然:并不能提供决策的全部信息,当两个假设的似然程度相同或者接近时,难以区分哪个假设更可能。对于给定观测数据,一个假设的概率取决于这个假设本身的可能性大小(即-先验概率,Prior)和该假设生成观测数据的可能性大小(即-似然性,Likeihood)的乘积。而似然概率高速我们越是高阶的多项式,他的轨迹弯曲程度越大。用户到底真正想输入的单词是什么?
2025-12-18 16:48:08
325
原创 机器学习-集成学习
同时,Bagging的各个预测函数没有权重,单身狗hiBoost是由权重的,Bagging的各个预测函数是可以并行生成的。在机器学习中,直接建立一个高性能的分类器是很困难的但是,如果能找到一系列性能较差的分类器,并把它们集成起来的话,也许就能得到更好的分类器。譬如选总统,每个人都以自己的考虑,投下自己的一票,但最后由多数人选出的总统,似乎应该好于由一个人指定的总统。我们一般选定加权平均的方法来构造学习的最终学习器,但是每一个分类器该如何设计,如果用同样的学习算法构造不同的弱学习器的方法。
2025-12-18 14:11:46
1716
转载 具有干扰的四旋翼姿态控制的鲁棒有限时间MRAC控制
本文提出了一种新型混合控制框架MRA-BLF-PBNTSMC,用于解决四旋翼无人机在扰动和不确定性条件下的姿态控制问题。该方法将PID反步控制与非奇异终端滑模控制相结合,并引入障碍李雅普诺夫函数保证状态约束,通过扰动观测器实时估计外部扰动。理论分析表明该方法具有有限时间收敛性和强鲁棒性。仿真结果验证了其在收敛速度、稳态误差和抖振抑制等方面的优越性能,为解决无人机在复杂环境下的姿态控制问题提供了有效方案。
2025-11-04 18:41:52
76
转载 MRA(S)C - 模型参考自适应(稳定)控制
本文综述了机器人机械臂的模型参考自适应控制(MRAC)研究进展。MRAC通过比较实际系统与参考模型的输出误差来调整控制器参数,具有处理参数不确定性的优势,但在非线性系统中稳定性难以保证。文章系统梳理了MRAC在机器人领域的应用历程,从早期Horowitz等人的基础性工作,到后来结合模糊控制、神经网络等智能方法的改进方案。重点分析了各种MRAC方法的优缺点,包括基于MIT规则、Lyapunov稳定性理论和超稳定性理论的不同设计方案。通过案例研究表明,混合MRAC(如PID-MRAC)和智能MRAC(如模糊MR
2025-11-04 15:43:25
94
原创 6DOF-Euler Angles
用于实现六自由度运动方程的欧拉角表示,如UAV、飞艇等物体,同时考虑了物体固定坐标系(Xb、Yb、Zb)绕平面地球参考系(Xe、Ye、Ze)旋转,也就是将机体系转换到惯性系下。在基础模块的下的质量是不可变的,且施加力作用在物体的重心处。物体固定坐标系的原点是物体中心,假设物体为刚性,消除了考虑作用在各个质量元素之间的力的需要。主体固定坐标系的平移运动,对机体系施加力[Fx,Fy ,Fz],假设质量为恒定值m。在机体系固定下的旋转动力学,其中施加的力矩为[L,M,N].惯性张量I是关于原点O的。
2025-09-29 15:45:36
300
原创 四旋翼无人机建模
本文研究了四旋翼飞行器的运动原理和动力学建模。首先分析了四旋翼的基本结构,包括电机、旋翼和飞控系统,阐述了通过调节四个电机转速实现垂直、前后、侧向和偏航四种基本运动模式的原理。然后建立了机体和地面坐标系,定义了横滚角、俯仰角和偏航角三个欧拉角。最后推导了飞行器的动力学模型,包括位置模型(考虑升力、重力和空气阻力)和姿态模型(考虑升力矩、陀螺力矩和阻力矩),为后续飞行控制系统设计提供了理论基础。
2025-07-23 17:38:59
1548
原创 自主/智能的本质内涵及其相互关系
摘要:本文探讨了无人机设计中自主与智能的本质内涵及其相互关系。自主指行为决策能力,智能则是运用知识完成任务的能力。智能分为不同层次,依赖于自主权的高低。无人机需要具备独立信息获取、处理和执行能力,同时遵循分层智能处理原则(安全飞行、任务完成、群体协同)。设计时应保证自主底线,借助辅助信息环和代理机构实现智能管控。无人机需融入自然界和人类关系网,其系统由硬件载体和功能灵魂构成,采用分布式架构以实现功能扩展和智能提升。研究提出了四环结构的分层智能控制框架,以简化系统复杂度。
2025-07-02 22:44:57
972
原创 FDR的定位原理
频域反射法(FDR)通过分析被测设备在频域上的反射特征,来推断时域(距离域)上的故障位置和性质。当电磁波信号沿着传输线进行传播时,如果遇到阻抗不连续点,一部分能量会继续向前传播,另一部分能量则会反射回来。反射的程度由反射系数(S11)决定。反射系数是反射信号与入射信号电压的比值,是一个复数,包含幅值和相位信号,表示反射信号的强度,是反射系数的相位,表示反射信号对于入射信号的偏移。相位是FDR定位的关键。
2025-06-02 22:31:16
1325
1
原创 史密斯圆图解析
史密斯圆图是射频和微波工程中分析阻抗匹配的核心图形工具,通过归一化处理将复数阻抗或导纳转化为可视化的图形,极大简化了阻抗变换和驻波分析过程。首先归一化阻抗,找到对应的等电阻圆,沿该圆移动到对应的等电抗弧,假设归一化后,z=0.5+1,横向找到r=0.5的等电阻圆,沿该圆向上移动到 x=1的等电抗弧交点。沿传输线移动,等于在史密斯圆图上绕中心旋转,每移动λ/2,相位旋转360,顺时针旋转代表向信号源方向移动,逆时针旋转向负载方向移动。中心点(Γ=0):匹配(ZL=Z0)(Γ=-1):短路点(ZL=0)
2025-03-08 20:38:24
1949
1
原创 强化学习数学基础(七)——时序差分
时间差分算法,TD 算法是一种结合了动态规划(DP)和蒙特卡罗(MC)方法思想的强化学习算法,它能够在不需要完整环境模型的情况下,通过与环境的交互学习得到最优策略,用于估计值函数等强化学习中的关键量.
2025-02-10 18:51:29
1805
原创 强化学习数学原理(五)——随机近似与随机
首先有个random variable(随机变量)X,我们的目标就是求出他的expectation E(x),我们有一些iid的采样,xi,从1到n,求出均值但是如果有很多数据,我需要等很久,把所有数据都收集完成然后求平均;第二种方法是一种增量式的iincremental的方法,迭代式iterativ的方法,就是来多少,先算多少。首先针对k个,从x1一直到xk,求一个平均那我知道了wk+1,我们让k-1就是wk,就是前k-1个xi的平均数,我们就是找出wk和wk+1之间的关系。
2025-02-03 19:56:31
1202
原创 强化学习数学原理(四)——蒙特卡洛方法
在强化学习中,要计算在策略pi下的状态 - 动作值函数 q(s,a),即从状态出发,采取动作a后,遵循策略pi所获得的期望回报。重复这个过程,直到到达终止状态,形成一个 episode,如(s0,a0,r0,s1,a1,r1,...,st,at,r),其中T是终止时刻,该 episode 的回报。从状态s出发,采取动作a,然后按照策略pi在环境中进行交互,直到到达终止状态,这一过程称为一个 episode,得到一个回报 g(s,a)。假设,有一枚硬币,抛硬币后,若正面朝上,定义随机变量X=1;
2025-02-01 23:29:02
1759
原创 强化学习数学原理(三)——迭代算法
上面是贝尔曼最优公式,之前我们说过,f(v)=v,贝尔曼公式是满足contraction mapping theorem的,能够求解除它最优的策略和最优的state value,我们需要通过一个最优v*,这个v*来计算状态pi*,而vk通过迭代,就可以求出唯一的这个v*,而这个算法就叫做值迭代。V(s)是状态s的最优价值,R是在状态s时执行动作a可获得的,y是折扣因子(衰减系数),还有状态概率矩阵P。后面给出代码验证
2025-01-27 22:51:07
1339
原创 强化学习基本概念
主要还是复习的时候自己看,能理解一些主要的概念。说白了 CSDN就是移动笔记,方便自己在外面闲着没事的时候,拿起来看一下,能够巩固这些知识,这一部分就是说明强化学习里面一些重要基础知识的
2024-12-17 19:41:16
611
1
原创 MATLAB深度学习(七)——ResNet残差网络
一、ResNet网络ResNet是深度残差网络的简称。其核心思想就是在,每两个网络层之间加入一个残差连接,缓解深层网络中的梯度消失问题二、残差结构在多层神经网络模型里,设想一个包含诺干层自网络,子网络的函数用H(x)来表示,其中x是子网络的输入。
2024-12-08 16:37:45
1982
1
原创 基于直线一阶倒立摆的控制(二)——LQR
对于 S 来说,他代表了末端状态的权重矩阵,一般情况这会是一个对角矩阵,Q代表运行当中的权重矩阵,R则是输入权重矩阵,这些矩阵都是对角阵,其他两个都是 n * n,但是R为 p*p。A是n阶方阵,如果对任何非零向量x,都有。其中呢,X为一个n*1的输入矩阵,u是一个p*1的输出,那么A状态矩阵,就是 n*n,B就是n*p的矩阵,这个是经典的线性系统离散的表达形式。Xd是我们要控制的目标,w是末端时刻,希望在w时刻的量尽量的靠近参考量,也就是最后状态,这个最后状态等同于下面的N时刻,这一块称之为末端代价。
2024-12-04 21:40:05
872
原创 基于一阶倒立摆的数学建模
参考如下情景假设构建倒立摆系统:在无外力作用时,倒立摆安装在小车上不能保持垂直状态而左右倾斜,为此需要给小车在水平方向上施加适当的作用力。摆杆的位置是在车的顶部,所以高度为需要加上一半的车高,但如果为中心或者高度够小,就可以直接省略。· 摆杆的重力方向 z: 。其实这里问题最多的就是符号问题,前面的过程得到的位置不同,这里的符号也会不同。,分别为小车位移,旋转角度,小车速度,旋转速度,控制量为小车水平方向上受力:F。
2024-12-04 20:44:48
3242
原创 MATLAB深度学习(六)——LSTM长短期神经网络原理与应用
因此我们可以得出,t时刻的RNN网络具有两个输入,分别为t时刻的输入向量x与t-1时刻的隐含状态。该忘记门会读取上一个输出和当前输入,做一个Sigmoid 的非线性映射,然后输出一个向量(该向量每一个维度的值都在0到1之间,1表示完全保留,0表示完全舍弃,相当于记住了重要的,忘记了无关紧要的),最后与细胞状态相乘。从上面的分析我们就可以看到,一贯而终的记忆细胞 C,信息流通的路径,使得训练过程中的梯度信息长距离具有可行性,遗忘门f,输入门i,输出门o,来通过有用信息,删除以往信息。,会被加入到状态中。
2024-11-22 12:54:56
1544
原创 MATLAB神经网络(五)——R-CNN视觉检测
目标检测是解决图像中的物体是什么,在哪里的问题;R-CNN利用候选区域+卷积神经网络的方法,解决了图像中的定位问题,对于小规模数据集的问题,R-CNN利用AlexNet在ImageNet上预训练好的模型,基于迁移学习的原理,对参数进行微调。将我们的候选区域压缩到 227*227,输入到神经网络中获得4096维的矩阵,每个候选区域都有一个矩阵。第一步:首先会有很多候选框区域,这些区域是由图像分割的方法得到的原始区域然后进行合并,得到的一个层次化的区域,这些区域内就可能存在需要的内容。
2024-11-21 21:02:21
1477
1
原创 Matlab深度学习(四)——AlexNet卷积神经网络
TransferLearning,把一个领域的知识迁移到另一个领域。基于共享参数的迁移学习研究如何找到源数据和目标数据的空间模型之间的共同参数或先验分布。通过修改一个通过完整训练的深度卷积神经网络模型最后几层连接层,再使用针对特定问题而建立的小数据集进行训练,使其能够适用于一个新的问题。很可惜,我们因为不是正版,所以暂时不演示迁移学习。
2024-11-19 13:23:34
1683
原创 MATLAB深度学习(二)——如何训练一个卷积神经网路
从数学的角度看,机器学习的目标是建立输入和输出的函数关系,相当于 y = F(x)的过程。F(x)的获得,我们通过的是实验法啊,经过大量数据训练出来的,我们定义一个损失函数L(x),记录真实输出与模型输出的偏差,通过数据的迭代使得损失函数L(x)达到最小。过拟合和欠拟合是常见的现象。但是需要说明的是,数据没有过多的这种说法,所谓的过拟合,是模型在训练集上的表现过于优异,模拟考100分你考了100分,99分,但是验证集上,相当于实际考试中你考了40分,换一场考试,换一个新的数据,导致严重误判。
2024-11-18 11:43:56
748
原创 Matlab深度学习(一)——如何构建一个卷积神经网络
一个卷积神经网络通常包含多个卷积层,以AlexNet为例子,就有5个卷积层,在卷积神经网络的数字图像识别过程中,每层的特征将会更加抽象。同一个卷积层中可以有多个不同的卷积核,所得到的特征图的个数和卷积层的卷积个数有关(子卷积核是分别卷积后求和,当然也可以是别的计算方法)。第一层是图像输入层,通过卷积以及其他特定形式的运算从图像中提取特征,接下来每一层都以前一层提取出的特征作为输入进行卷积,得到更高级的特征。卷积核与图像的相似程度越高,得到的响应值越大,因此可以通过滑动卷积运算来提取图像的特征。
2024-11-17 20:52:08
4262
2
原创 ROS——Teb算法的yaml参数调整
一、简介“TEB”全称Time Elastic Band(时间弹性带)Local Planner,该方法针对全局路径规划器生成的初始轨迹进行后续修正(modification),从而优化机器人的运动轨迹,属于局部路径规划。关于eletic band(橡皮筋)的定义:连接起始、目标点,并让这个路径可以变形,变形的条件就是将。二、说明。
2023-04-21 08:52:18
8432
6
原创 ROS导航
ROS部分我会出两章进行说明的文章,分别为ROS的基础知识和基本包使用,都会是从0重新开始,也方便自己学习,将会是从头开始写,所以预计耗时较长
2023-04-12 23:41:02
3064
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅