2025年了,RL还是通往通用智能的一条主流赛道嘛?

作者 | 中年失败男性 编辑 | 自动驾驶之心

原文链接:https://www.zhihu.com/question/8841862617/answer/82308586701

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

>>点击进入→自动驾驶之心自动驾驶技术交流群

本文只做学术分享,如有侵权,联系删文

谈RL的未来前我们先谈我们说RL的时候其背后支撑的技术具体解决了什么问题。

无论大家概念上理解的RL是什么样的,formalize的时候必然是用Markov随机过程来建模环境的。在这个formulation下,我们需要一种优化算法找到一个policy使得其能最大化objective function。由于吃四个包子吃饱不代表前三个白吃了,所以必须解决一个temporal credit assignment的问题。RL绝大部分的literature主要解决这个问题。

除此之外还有structural credit assignment,这个研究的很少,并且有文章指出structural credit assignment可以转化成temporal credit assignment。这个在simulation的时候当然是可以的,但是也就是simulation是可以的,现实是不行的。

显然,解决temporal credit assignment不能解决AGI,在A deep learning framework for neuroscience 中提到的三个方面architecture,learning rules,objective functions,目前来看和temporal credit assignment没什么关系。如果以后有关系,那以后解决的temporal credit assignment问题和现在的所谓的rl也没什么关系。

① 2025中国国际新能源技术展会

自动驾驶之心联合主办中国国际新能源汽车技术、零部件及服务展会。展会将于2025年2月21日至24日在北京新国展二期举行,展览面积达到2万平方米,预计吸引来自世界各地的400多家参展商和2万名专业观众。作为新能源汽车领域的专业展,它将全面展示新能源汽车行业的最新成果和发展趋势,同期围绕个各关键板块举办论坛,欢迎报名参加。

db0eab9274eaf2fdca361b73ad83d3dc.jpeg

② 国内首个自动驾驶学习社区

『自动驾驶之心知识星球』近4000人的交流社区,已得到大多数自动驾驶公司的认可!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知端到端自动驾驶世界模型仿真闭环2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案大模型,更有行业动态和岗位发布!欢迎扫描加入

dce13ac9043d583e66e5da692234cf7b.png

 ③全网独家视频课程

端到端自动驾驶、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合多传感器标定多传感器融合多模态3D目标检测车道线检测轨迹预测在线高精地图世界模型点云3D目标检测目标跟踪Occupancy、CUDA与TensorRT模型部署大模型与自动驾驶NeRF语义分割自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码即可学习

78197b4c0b4f50070a6f3e1332e90086.png

网页端官网:www.zdjszx.com

④【自动驾驶之心】全平台矩阵

a06b7e41ddf98d28912794f28be200fa.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值