【valse 2024】会议内容汇总（持续更新）

杀生丸学AI

已于 2024-05-17 11:12:57 修改

阅读量2.6k

点赞数 27

文章标签： valse 计算机视觉大模型跨模态 AIGC 三维重建视频生成

于 2024-05-08 23:15:46 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_45752541/article/details/138581628

版权

在这里插入图片描述

提示：更新中，一周左右更新完毕。需要具体课件的可私信

Tutorial 1:开放词汇视觉感知

讲者：李冠彬-中山大学
时间：第二天下午

在这里插入图片描述

一、课题背景介绍

在这里插入图片描述

在这里插入图片描述

![在这里插入图片描述](https://img-
blog.csdnimg.cn/direct/0fe51b99b65540e2b6282d2632b06171.png)

开放词汇视觉感知 要求模型从海量图文对数据中学习视觉概念知识，并在实际开放 场景中实现不限类别 的视觉感知。

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

二、开放词汇分类

在这里插入图片描述

利用海量图像-文本对，将图像与文本映射到同一嵌入空间，实现概念跨模态语义对齐。

特点：

图文关联弱，噪声较大
海量数据易获取
泛化能力强

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
实验结果分析：

1.多模态提示学习优于单模态提示学习，耦合多模态提示优于独立多模态提示
2.对于新类泛化能力，MaPLe优于CoCoOp，原因归于MaPLe 利用了文本和视觉提示的协同学习
3.整体性能MaPLe都优于CoOp和CoCoOp

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

三、开放词汇检测

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
《Grounded Language-Image Pre-training》
算法思想
1.将物体匹配与短语定位任务统一起来进行预训练；
2.利用区域定位能力从图文对数据中构建准确的区域文本对数据

核心贡献
1.统一的区域级图文匹配预训练模型
2.准确性高，泛用性强

在这里插入图片描述

在这里插入图片描述

利用海量“图像-文本”数据扩大视觉概念：
1）利用已有的Grounding数据（80万）进行监督训练，得到教师模型
2）从图像文本对数据提取名词短语，基于“教师-学生” 半监督学习从“图像文本对”生成“区域文本对”伪标签，并加入训练学生模型。
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

总结一下：

在这里插入图片描述

四、开放词汇分割

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

五、下游任务应用

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

六、多模态大模型

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

七、总结与展望

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

Tutorial 2:NeRF和3DGS

workshop0:视觉大模型高效迁移

在这里插入图片描述

1.视觉大模型微调与轻量化结构设计技术

清华大学丁贵广

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

2.高效能个性化图像生成

程明明南开大学

在这里插入图片描述

workshop1:艺术智能

需要完整课件的可私信

1.从计算人文到计算电影Al时代电影研究的新范式

薄一航-北京电影学院美术学院

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

2.绘画中的AI

董未名-中国科学院自动化研究所

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

3.人工智能的舞蹈创作与情感融入

姚鸿勋-哈工大

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

4.智能艺术与创新设计—智能篆刻

张克俊-浙大

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

workshop 2:三维重建与生成

1.3DGS重建和生成-方杰民

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

2.自动驾驶-廖依依

3.神经形态相机视觉计算-施柏鑫

4.激光雷达全球定位-王程

5.鲁棒可扩展的在线三维重建相机跟踪优化与地图表示学习-徐凯

总结

提示：这里对文章进行总结：

例如：以上就是今天要讲的内容，本文仅仅简单介绍了pandas的使用，而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。

评论 5

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。