2024中国图像图形学学会青年科学家会议的主旨报告讲了啥?

初冬微寒透薄裳,西湖畔上步徜徉。

枫叶飘零随风舞,菊花傲立斗寒霜。

远山如黛添新翠,近水含烟笼薄纱。

此景此情何处觅,唯有杭州最难忘。

十二月的杭州,寒风甚冷,枫叶红透,朵朵菊花傲立风中,瑟瑟发抖。

杭州城南,有一块文化高地:之江文化中心。之江文化中心的北面,有一座富丽堂皇的大酒店:白金汉爵。

此时正是14日早上8时左右。大量的人群正快步进入酒店。酒店内早已是人头攒动,人声鼎沸。大家正兴高采烈等待着一场盛大会议的开始。

这就是2024中国图像图形学学会青年科学家会议。

图1 大会官方海报(图片来自中国图象图形学学会官方公众号)

会议汇聚了图象图形学领域的众多青年好手和已经声名显赫的前辈们。在此岁末,大家欢聚一堂,分享彼此一年来的学习和研究心得,互相切磋,共话前沿,共同进步。当然,还有来自全国各地的莘莘学子,不畏严寒,从四面八方汇聚于此,为的就是一睹这些学者和科学家们的风采,感受他们孜孜不倦、不断探索的科研精神,学习他们关于领域研究最前沿的知识分享。

在领导们致辞过后,时间来到了上午9时。

作为第一位主旨报告嘉宾,南京大学周志华老师隆重登场,进行了一场非常精彩的报告。周老师报告的题目是《学件与异构大模型》。

周老师首先描述了大模型取得的巨大成功,并呈现了自己关于大模型的两个观点:(1)业界应努力发挥大模型的巨大威力,让大模型在更多领域发挥更大作用;(2)大模型并非是所有任务的最佳解决方案,在充分肯定大模型的成功的同时,也需要重视其它技术路线的发展。周老师随后指出了大模型的六个常见问题,包括难以获得专家级性能、无法适应事先未规划的新任务、高能耗、巨量数据依赖、数据泄露风险与灾难性遗忘风险。关于如何解决上述问题,周老师提出了“学件=模型+规约”这一原创范式的理论基础与实践成果。学件的基本思想是不依赖少数“英雄大模型”打天下,而是依靠“人民群众”的力量,发挥众多小模型的作用。周老师最后介绍了首个学件基座系统“北冥坞”。该系统由周老师带领其团队开发并进行了开源。

第二个主旨报告嘉宾为中国科学院自动化研究所多模态人工智能系统全国重点实验室副主任王亮研究员。他的报告题目为《多模态计算与智能:何去何从》。

首先,王亮研究员指出多模态计算具有非常高的应用价值,是当今各国争相抢占的科技战略制高点。同时,多模态计算也是产业界大力布局的新兴增长点和国际学术前沿的研究热点。多模态计算取得了巨大的进展,但是也一些关键问题亟待解决。例如,当前多模态大模型存在的可信问题、安全问题、长视频理解能力不足及评测困难等问题。为了有效解决上述问题,王亮研究员及其团队开展了有针对性的研究。王亮研究员及其团队构建了幻觉检测、知识编辑、训练数据质量增强、知识增强等方法,这些方法有效缓解了多模态大模型的可信性问题;此外,他们还构建了当前规模最大的多模态大模型评测基准数据集,该数据集有力推动了多模态计算领域的研究进展。同时,他们还构建了多模态知识蒸馏框架,该框架大大提高了模型的计算效率。最后,王亮研究员指出多模态大模型未来可能的发展方向包括:(1)更丰富的数据模态:除了图像、视频、文本、音频等模态,金融、科研等具体应用场景需要对图表、图谱、时序、序列等更丰富的模态信息进行建模。(2)脑启发的多模态模型架构:从神经网络架构创新的角度出发,借鉴人脑神经元连接与信息传递方式,构建推理能力更强、计算效率更高的多模态模型。(3)理解多模态大模型内部的运作机制,有助于针对性提升模型的可信性,提高透明度和可解释性,减少模型输出的事实性错误。(4)构建安全可靠的多模态大模型,能够识别恶意的指令,拒绝输出有害的信息,极大程度降低人类使用模型的安全风险。(5)面对多模态大模型安全性问题,可以从训练和推理两个阶段,开发不同的安全对齐技术,同时做到尽可能不损失模型的效用性。(6)目前多模态大模型体量太大、推理速度慢,难以高效地部署到手机机器人等移动端上,可以通过蒸馏、剪枝等方式提升效率。(7)为充分保留长视频中的语义信息,同时减轻模型处理的负担,可以通过压缩视觉相关的词元来实现平衡,提升多模态大模型对长视频的理解能力。(8)依托多模态大模型,构建多模态智能体,自主与环境交互,主动获取信息,帮助人类完成工具调用、网页操作、信息汇聚等任务。(9)整合多模态感知、决策、控制、模型小型化等技术,更智能地在决策、控制、模型小型化等技术,更智能地在实体机器人上实现机器人敏捷导航与灵巧操作。

第三个主旨报告嘉宾为香港科技大学计算机科学与工程学系教授、思谋科技创始人贾佳亚教授。他的报告题目为《AI研究之路》。

图2 贾老师学术研究的三个阶段(图片来自其报告)  

贾老师的报告充满了幽默感和满满的真诚。通过分享自己20年学术研究的历程,展现了20年来人工智能波澜壮阔的发展史。首先,贾老师以一个精彩的比喻开始了整个报告:“很多人觉得学术领域很神圣,但我觉得却像是一个菜市场!因为每个学者要像菜贩那样尽最大的努力地去兜售自己的知识和算法。”这个比喻实在是很形象,尤其对人工智能领域而言。人工智能领域发展日新月异,各种算法层出不穷,一个学者的研究如果没有前沿优势,如果不受欢迎,那么他的研究可能很快被淹没在迅速革新的洪流中。因此,一个学者的研究是否处在最前沿,其做的工作是否是世界上最优秀的工作,这决定了其发展的未来。贾老师将自己的研究生涯划分为3个阶段:(1)2004-2014,前深度学习时代。这一时期图象和图形学领域的研究范式由传统的方式逐步过渡到深度学习时代,而他自己的研究领域也从计算摄影学转到视觉理解(2)2014-2022,深度学习快速发展时期。这一时期的深度学习技术迅速迭代,深度学习的技术比赛热潮兴起,通过各类比赛极大地促进了深度学习及其它领域的发展。(3)2022-2024,大模型时代。贾老师介绍了其团队研发并开源的长文本大语言模型LongAlpaca,并以学术论文分析与会议论文写作风格对比为例展示了LongAlpaca卓越的长文本理解与分析能力。同时,贾老师还介绍了团队在语义推理领域的最新研究进展。最后,贾老师对大模型的发展方向提出了自己的展望:(1)智能机器人;(2)更大的大模型;(3)大模型驱动的智能体;(2)大模型在垂直领域的应用。

第四个主旨报告嘉宾为深圳大学计算机与软件学院院长黄惠教授。她的报告题目为《Graphics-AI-Robots》。

黄老师在报告中指出:当前的智能机器人技术缺乏对真实三维动态环境的认知能力,这限制了其进一步智能化。黄老师提出可以通过图形和人工智能的结合来模拟复杂的真实环境,从而可以丰富学习认知生态,提高机器人的智能程度。基于这一思路,黄老师及其团队进行了多方面的尝试,不断提高机器人的智能程度。此外,黄老师及其团队还在高精度三维重建领域取得了多项具有突破性的成果,实现了毫米级应力变化检测。这些显著性成果为精密形变检测的应用落地提供了强有力的支撑。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值