深度学习强化学习小白入门
文章平均质量分 80
深度学习强化学习小白入门
自动驾驶小小小白
这个作者很懒,什么都没留下…
展开
-
纯小白入门解读:神经网络
在神经网络中,非线性指的是神经元的激活函数不是线性的。输入层是1×3的矩阵,隐藏层1和隐藏层2是1×4的矩阵,输出层是1×1的矩阵,这样在输入层和隐藏层1之间有一个3*4的权重矩阵,隐藏层1和隐藏层2之间有一个4×4的矩阵,隐藏层2和输出层之间有一个4*1的权重矩阵。y与很多x相关,但是x的权重不确定,线型回归就是在做求x的权重的过程,神经网络可以视为一个多层的线性回归模型,但其关键之处在于神经网络的每一层之间都会添加非线性激活函数,这使得神经网络可以学习和表示更加复杂的非线性关系。得到不同类别的概率。原创 2024-05-07 11:37:32 · 775 阅读 · 0 评论 -
UniAD 论文解释 && 思路
现代自动驾驶系统通常以模块化任务的顺序进行,即感知、预测和规划。部署单独的模型来处理各个任务,或者设计具有独立头部的多任务范式。然而,这些方法可能会受到累积误差或任务协调不足的困扰。一个理想的框架应该为追求自动驾驶汽车的终极目标(即规划)而精心设计和优化。因此,我们介绍了(UniAD),这是一个最新的综合框架,将全栈驾驶任务整合到一个网络中。它精心设计,以利用每个模块的优势,并从全局角度提供互补的特征抽象以进行物体交互。任务通过统一的查询接口进行通信,以相互促进规划。原创 2024-04-26 17:44:42 · 975 阅读 · 1 评论 -
强化学习中用时序差分TD估计状态V值
在将时序差分之前我们先说一下蒙地卡罗算法的缺点1.在复杂环境下终点很难达到,此时蒙地卡罗算法就不太适用了2.在动态环境下蒙地卡罗算法会失效蒙地卡罗具体可以看我之前的文章因为蒙地卡罗的以上缺点我们引出时序差分算法(TD)原创 2023-07-21 22:04:28 · 52 阅读 · 1 评论 -
强化学习蒙地卡罗MC更新公式原理,通俗易懂
在学习蒙地卡罗更新公式原理之前我们要要了解一下三个理论基础。原创 2023-07-21 21:44:31 · 170 阅读 · 1 评论