专访首届冠军赵鉴博士:是时候有人来填补强化学习应用空白

前言导读:当今世界正面临百年未有之大变局,新兴技术蓬勃而出带给我们无限想象。强化学习作为人工智能领域的前沿探索,是否会成为时代的下一个风口,这或许无人敢担保。但早有一群人在这片“科研边疆”坚定守望,等待点燃名为奇迹的瞬间。为此,腾讯开悟推出【开悟创新者说】邀请历届比赛优秀选手做客专访,记录他们在强化学习领域的探索与发展,挖掘一串串代码背后属于青年人的赤诚与热忱。

赵鉴,南栖仙策(南京)科技有限公司算法副总裁,东南大学校外硕导,分别于2018年和2023年在中国科学技术大学获得学士与博士学位。他曾在微软亚洲研究院等机构学习工作,科研领域包括游戏AI、强化学习和多智能体系统,目前在国内外学术期刊和会议上发表论文二十余篇。他曾获得第一届腾讯开悟多智能体强化学习大赛冠军,RLChina 智能体挑战赛2021夏季赛冠军,2022春季赛冠军等奖项。目前在南栖仙策主要从事强化学习的应用落地业务。

2016年,AlphaGo在围棋惊世亮相,将默默发展半个世纪之久的强化学习正式带入了大众的视野,更掀起强化学习研究热潮。那两年,有学者被博弈魅力所打动,一头潜入强化学习深海;有高校承担起各项强化学习相关研究,试图再造AlphaGo的神话;也有一批学生在导师的带领下,在近乎空白的领域里开启自己的研究生涯。风风火火的浪潮里,赵鉴作为其中之一,跟随导师开启了自己的探索之旅。他提到,之所以进入这个领域,更多是强化学习选择了他。“一个研究生做什么样的课题,走什么样的方向,更多是由时代决定的,很少有人在选择研究领域的时候了解这个领域是干啥的。”作为最早一批开始强化学习方向的研究生,听着“强化学习才是未来人工智能方向”的口号燃起的满腔热血,开始却被现实浇成透心凉。根据赵鉴的回忆可以窥见当初的研究困境,缺乏实验环境和海量算力,同方向研究人员稀少,难以找到同行交流讨论。大量的劝退文和身边同门喊着转行,赵鉴不是没有想过放弃。所幸转机发生在一年后,腾讯开悟组织了首届“开悟MOBA多智能体强化学习大赛”,开放算力、算法、实验场景,让强化学习领域学生从理论研究走向实践,赵鉴称这是他“梦的起点”。

王者荣耀——梦的开始

跟常规意义上的学霸不一样,赵鉴还是一个资深游戏爱好者。作为王者荣耀的骨灰级玩家,他在游戏里收获了爱情,也在游戏中找到了自己研究的价值。

(赵鉴夫妇和他实验室师弟五黑排位)2019年,腾讯开悟邀请国内高校学生在王者荣耀的游戏环境中进行AI前沿课题探索,第一批试点学校选定了,清华、北大、中科大和电子科大。赵鉴称自己是幸运的,在看到自己热爱的游戏和自己从事的研究相结合,他第一时间找到导师报名,凭借对游戏的热爱一手组建起战队,并且在首届邀请赛上一举夺冠。这几乎是他命运的转折点,强化学习的大门就此打开。兴趣驱动下的成长飞速,他组建起强化学习小队,通过一场场比赛掌握游戏AI开发能力;后又成立机器博弈社团,吸引更多学弟学妹走进强化学习的世界;毕业前夕还上了学校的招生简章,一路走来收获鲜花与掌声,将自己的研究生涯过的充实又充满惊喜。在课余时间,他还热衷在知乎分享自己的比赛经历,如今也成为了一个上万粉丝的知乎大V。

(赵鉴知乎个人主页截图)问及为什么要把比赛经验分享出来,赵鉴的回答和我们做专访的初心无比契合。他回到:“从参加完开悟比赛我就发现,其实高校内强化学习还长期处于一个非常落后的阶段。我接触过很多很多做强化学习研究的人,他们大部分跟当年我参加比赛前一样,对强化学习的理解非常浅显。然后我又想到,可能这些同学不能去实习或者参加比赛的种种客观原因,没有办法去了解真正的强化学习是什么。那我就尝试写一些文章,把自己的经历分享出来,让大家有途径可以看看真正的强化学习是怎么样的,就是或者说我做的强化学习是怎么样的。也算是我觉得自己对这个领域一点小小的帮助。”

总需要有一批人去填补空白

回看自己的校园经历,赵鉴认为自己是幸运的,这份幸运贯穿了他的强化学习之路。但再幸运的学霸走到毕业,也和千万名毕业生面临一样的困惑,怎么选择自己的职业生涯,怎么平衡你的工作跟梦想。面对缺乏市场应用,就业岗位不足、就业地址受限等等现实困境,多数强化学习的同学不约而同的选择改变方向,这次赵鉴格外的坚定,他要跟像子弹飞里的老大一样,坚持回山接着做麻匪(强化学习)。谈到为什么会选择入职企业而非留在学术圈,他的回答没有一丝迟疑,“我觉得,强化学习目前在国内已经有很多学术研究成果了,学界不缺一个学者,但是业界需要有一批人站出来,去填补强化学习应用的空白”。南栖仙策恰好是这样一所企业,作为市场上少有的以强化学习为核心的企业,给了赵鉴最理想的舞台。这一次,他挥手和实验室的伙伴们告别,离开熟悉的城市,和南栖仙策双向奔赴。在这里他从零开始搭建起团队做项目,只是这次不再单纯应用于游戏,要在更多工业场景大展拳脚。

(赵鉴入职南栖仙策时,与公司创始人合影)正如现在势头昂扬的AI产业,南栖仙策也在浪潮中蓬勃发展,目前已率先成功实现强化学习在化工、水务等工业过程控制领域落地应用。如今的南栖仙策正一路高歌猛进,但招聘规模难以跟上公司不断壮大的需求。接受采访的前两天赵鉴还奔波在各大高校进行校招工作。他告诉开悟,“这两年强化学习的研究者就业意愿趋向于保守,更多选择进互联网大厂或者体制内工作。”对此,赵鉴在南栖仙策一方面正在建立一套内部培养体系,重新培养起一批合适的人才,另一方面,赵鉴也在努力挖掘强化学习所带来的附加价值,从而吸引更多强化人继续在强化领域发光发热,“让每个RLer都能有令人羡慕的薪水是我的一大愿望。” 赵鉴也对过往开悟的优秀选手抛出橄榄枝,“非常欢迎腾讯开悟比赛的优秀选手加入我们的团队。”如今,入职近一年的赵鉴已经褪去学生的青涩,这里赵鉴又提到了自己的幸运,得益于读研时期接触的各式项目以及丰富的参赛经验,他的读研思维和工作思维几乎是一致的,这让赵鉴从学生到职场人转变几乎是无缝适配。和高校科研不同,企业的最终目标还是希望实现强化学习赋能产业,因此除技术外,寻找合适的场景也成了十分关键一环。赵鉴现在的工作就更多聚焦在接触新领域。“并非所有的场景都适用强化学习介入,这就需要强化学习领域的人主动去了解工业。”

强化学习缺少标准和评判规范

虽然强化学习已经在诸多场景进行落地试验,但对比风起的大模型,强化学习还略显冷门。缺乏颠覆性的变化与C端感知对强化学习的发展带来了重重阻碍,不断接触新场景的赵鉴对此也有了更深的思考。“在迎合新场景时,需要有人充当纽带将两个领域连接起来,但因为强化学习自身具备一定的门槛,有些人从行业出发就会对强化学习理解不够充分,这些偏差的认知反而会影响到跟行业的合作。”对此,赵鉴认为,“强化学习缺乏业内的标准和评判的规范”。如何降低强化学习门槛,如何让整个行业更加标准化、规范化,这是每个强化人的责任。作为资深的强化学习比赛选手,赵鉴用切身经历告诉我们,参赛是降低强化学习门槛的最优路径。作为开悟赛事的野生代言人,他认为“开悟比赛是帮助学生迈入强化学习大门,链接高校教育与产业场景的绝佳途径。”强化学习落地还有很长一段路要走,这一路会有更多年轻学子加入进来,作为先行者,赵鉴将自己的经历做了凝练总结,希望对还在迷茫的学子有所帮助,“我个人认为,当前社会上对普通人的容错率是比较低的,像我这样将研究方向延续到自己工作,是一件非常幸运的事情,对于强化学习的研究生,既然已经踏入了这个领域,不妨提前做好规划,更多去了解强化学习在实际业务的落地点,让自己在这个领域保持竞争力。”赵鉴是幸运的,兴趣与天赋相结合,将研究方向延续到职业生涯,最终实现与强化学习的双向奔赴。这份幸运来源于他的无畏,敢于做第一批人,不受大环境的影响坚持自己的选择,永远坚持创新探索。前沿探索常多歧路,但总有人一往无前。


采访花絮:新一届的开悟比赛即将启幕,请赵博对即将参赛的同学们分享自己的建议吧~

赵鉴博士:不要犹豫,赶快报名!(超大声)


*文章来源:腾讯开悟。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值