强化学习
文章平均质量分 93
白云千载尽
自动驾驶界的小垃圾一个
仿真一条龙,实车一条虫
展开
-
决策大模型专题(一)
好那么这两种算式,我们刚刚其实讲了一种是LM agent,它其实是基于一个pretrain好的大语言模型,去作为基础啊,然后在一些任务上去做啊,对其法人丘陵等等啊,还有另外一种任务呢,则更多的是一个端到端强化学习,只不过我们是将它的module去做的更大,更有更high capacity,这两种范式,其实,我们可以如何对它进行一个融合的,啊,其实在目前大家可能会越来越关注的,聚身智能,这个方向上,可能会得到一个融合啊,除了我我我这边提到的一个点,其实是不只是双层啊,可能是有三层架构,原创 2024-04-23 10:34:28 · 762 阅读 · 0 评论 -
强化学习&MPC——(三)
这一次来由浅入深认识一下价值函数以及动态规划解决优化问题首先我们要理解一下状态价值函数,这是bellman equation的第一次正式推导。原创 2024-04-22 09:16:26 · 743 阅读 · 0 评论 -
强化学习&MPC——(二)
马尔科夫过程:通过状态转移概率的实现的过程,马尔科夫过程是一个****,S是有限状态集合,P是状态转移概率。马尔可夫过程是指一个满足马尔可夫性质的随机过程。一个马尔可夫过程由状态空间SSS和状态转移概率矩阵PPP组成。状态转移概率矩阵PPP表示了从一个状态转移到另一个状态的概率。马尔科夫奖励过程:马尔可夫奖励过程是在马尔可夫过程的基础上增加了奖励的概念。一个马尔可夫奖励过程由状态空间SSS、状态转移概率矩阵PPP和奖励函数RRR组成。奖励函数RRR。原创 2024-04-09 22:40:55 · 457 阅读 · 0 评论 -
强化学习&MPC——(一)
强化学习是机器学习的一种,是一种介于监督学习和非监督学习的机器学习方法。学习二字就很形象的说明了这是一种利用数据(任何形式的)来实现一些已有问题的方法,学习方法,大致可以分为机器学习,监督学习,非监督学习和强化学习。机器学习:机器学习是用数据或以往的经验,以此优化计算机程序的性能标准。 监督学习:已知数据和其一一对应的标签,训练一个智能算法,将输入数据映射到标签的过程。 非监督学习:已知数据不知道任何标签,按照一定的偏好,训练一个智能算法,将所有的数据映射到多个不同标签的过程。原创 2024-04-08 13:25:24 · 1150 阅读 · 2 评论