ECCV 2024揭榜,录用率或创新低!2395篇论文中选,网友晒出成绩单

7671c5c254b1681830fa977d1ae87aab.jpeg


新智元报道

编辑:桃子 好困

【导读】两年一届的ECCV录用结果终于揭晓了!刚刚,ECCV组委会公布了录用论文名单,共有2395篇论文被录用。

ECCV 2024录用结果终于公布了!

一大早,ECC组委会放出了所有被接受论文的ID名单,共录用了2395篇论文。

f7213ae46abacaf8a2a8502ccb4821f5.png

有网友估算了下,今年论文总提交量大约有12600篇,录用率是18%。简直不敢相信今年ECCV的录用率如此之低,CVPR 2024录用率还是23.6%。

b0a44bbaecc0d786f68fa09e424a7115.png

75d3ffd96dbba8d4a01303f30901eefb.png

据统计,ECCV 2022共有5803篇论文投稿,接收率为28%。

再往前倒推,2020年ECCV共收到有效投稿5025篇,接收论文1361篇,接收率为27%。2018年共有2439篇投稿,接收776篇,录用率为31.8%。

ECCV表示,在接下来的几天里,还将公布最终的评审意见和元评审意见。还有论文Poster/Oral结果也将在随后揭晓。

d605276dc2cc4bf00114e6b661430b23.png

今年,是ECCV召开的第18届顶会,将于9月29日-10月4日在意大利米兰正式开幕。

33a585a28bbc3de5d26aa17ffab26e6b.png

ECCV(欧洲计算机视觉国际会议)创办于1887年,每两年举办一次。

它与CVPR(每年一届)ICCV(每两年一届)并称计算机视觉方向的三大顶级会议。

00381ffdf8312d93deadaf91eb9c4991.png

收到录用结果的小伙伴们,已经开始分享自己的成果了。

网友晒出成绩单


一位小伙伴Jeff Li同一天双喜临门,不仅收到了入职英伟达的offer,同时2篇论文被ECCV接收。

a2694c380046edd2511d6ff3e255b971.png

斯坦福计算机博士生,清华校友Congyue Deng实现了在噪声和特征不准确的情况下,获得更好的图像对应关系。

1991c788f1410b03d5780e6fcb97010c.png

为此,作者提出了Laplacian特征函数,可以将图像对应问题性像素空间提升到函数空间,并直接优化全局一致的映射。

实验结果证明,新技术不仅能产生更平滑,而且更准确的对应关系,还能更好地反映作者所研究的大规模视觉模型中嵌入的知识。

03e91d053743263f7d4fed84c453a552.png

论文地址:https://arxiv.org/abs/2403.12038

佐治亚理工学院Bolin Lai博士联手Meta、UIUC团队发表论文,提出了以自我为中心的动作框架——LEGO,由多模态模型和扩散模型组成,通过指令微调丰富动作提示。

fc22f3aee2e5d38f795c20df37304a7a.png

最新框架的设计目标是,通过输入用户提示和以自我视角为中心的图像,基于用户的「上下文」(即动作帧)描述动作。然后用户再去学习,如何去无缝完成自己的工作。

论文中提出新模型能够按照指令生成一致的动作,并在动作过程中发生视点变化时,依旧保持一致性。此外,LEGO模型还可以在相同的上下文中,推广到各种看不见的动作。

f4bc10f4170d22833cdf3764691005ec.png

论文地址:https://arxiv.org/pdf/2312.03849

高斯泼溅

来自UT Austin的博士生Zhiwen Fan,有3篇论文都被ECCV 2024接收了。

这几篇论文探索了许多新的领域:从稀疏视图进行3D重建、高质量3D多任务学习,以及使用全景格式的大规模3D生成。

a9525a484067111abf0982dabb207156.png

在DreamScene360中,作者提出了一种3D全景的场景级别生成流程,该流程利用GPT-4V结合2D扩散模型和全景高斯泼溅技术,从任何具体程度的文本提示中生成具有完整360度覆盖的沉浸式高质量场景,实现了卓越的3D场景生成质量和实时的渲染速度。

4b9d671c6df2464e56fb34c5a93a6c35.png

项目地址:https://dreamscene360.github.io/

3692ecbc7a4ca51e77df4c284434c774.gif

在FSGS中,作者提出了一种基于3D高斯泼溅的稀疏视角合成框架,该框架能够在仅有三张训练视图的情况下实现实时和高质量的视角合成。

作者通过精心设计的高斯Unpooling过程来处理稀疏的COLMAP点云,并在最具代表性的位置周围迭代分布新的高斯,随后在空白区域填充局部细节。

此外,作者还在高斯优化过程中集成了一个大规模预训练的单目深度估计器,利用在线增强视图引导几何优化走向最佳解决方案。

从有限输入视点观察到的稀疏点开始,FSGS可以准确地扩展到未见过的区域,全面覆盖场景并提升新视角的渲染质量。

总体而言,FSGS在包括LLFF、Mip-NeRF360和Blender在内的各种数据集上,在图像质量达到了SOTA的性能,渲染速度比基于NeRF的方法快2,000倍以上。

4da37a18c159f61591c948a57915cbff.png

项目地址:https://zehaozhu.github.io/FSGS/

2cd9d99b93fb5acf2bc966cd59ff44d2.gif

在VersatileGaussian中,作者提出将Multi-task Learning引入Gaussian Splatting,来提升全任务的重建质量,尤其是RGB图像渲染质量得到明显提升。

本文提出特征图Rasterizer,以及任务间的相关注意模块,能通过一种软加权机制传播任务特定知识,促进跨任务相关性学习,从而取得明显优越的性能。

在ScanNet和Replica数据集上的实验表明VersatileGaussian取得了明显优越的渲染质量和速度。

8ff3a8b93b53bb71a8ca0d217fc28161.png

项目地址:https://shadowiterator.github.io/VersatileGaussian-Homepage/

5923a4815810bace3aa569c0d4e0e6cf.png

图像编辑

UCSC的助理教授Xin Eric Wang则带领团队提出了一种图像个性化编辑SwapAnything框架。

a8373dfe7a5da10c88f109ec40455444.png

基于此,你便可以看到肌肉发达的LeCun大牛拍着小猫咪;乌龟的龟壳,也可以是美国队长盔甲的印记。

正如作者所述,SwapAnything可在个性化可视化编辑中实现任意对象「交换」,包括单对象、部分对象、多对象、跨域、基于文本的「交换」等。

它有三个独特的优势:精准控制任意对象和部件,而不是主体;原封不动地保存上下文像素;个性化概念与形象的无缝改编。

7aa0301369d2d2341c0300ce37450052.png

论文地址:https://arxiv.org/pdf/2404.05717

ChatGPT中的DALL·E却无法利用参考概念,进行个性化视觉编辑。

在它支持的基于文本的编辑任务上,SwapAnything也能实现更稳健的性能。

d67331cb101fa5b923d8263ea76e3a43.png

图像合并

谷歌研究科学家、DreamBooth作者Nataniel Ruiz和团队提出的ZipLoRA算法,正式被录用。

fb895c61f8b0be919add18c3eac47240.png

在AI社区中,合并LoRA一直是一个热门话题,但调优过程可能非常繁琐。

谷歌和UIUC提出的ZipLoRA算法,可以让开发者轻松地将任何主体LoRA与任何风格LoRA结合起来。

这一方法的核心思想很简单:通过反向传播找到一个合并点,在这一点上两个LoRA都能很好地发挥作用,同时还能限制它们之间的信号干扰。

如下图所示,ZipLoRA保留了令人印象深刻的细节主题,非常逼真地再现了用户给出的风格。

b977432dc94d368c92bb900ad3ec6792.png

论文地址:https://arxiv.org/pdf/2311.13600

与社区其他类似方法相较之下,比如direct arithmetic merge、StyleDrop+DreamBooth等,ZipLoRA更好地实现了主题保真度,以及风格指令遵循。

ca2159d62b06204a91ba262d3f9bd7bf.png

图像生成

英伟达高级研究科学家Ali Hatamizadeh刚刚宣布,团队提出的图像生成ViT算法DiffiT被ECCV 2024接收。

dd9a9f1bc9c93d7e193c17684ccd4c69.png

在这篇论文中,作者提出了扩散视觉Transformer(DiffiT)用于图像生成。

具体来说,它们提出了一种对去噪过程进行精细控制的方法,并引入了时间依赖多头自注意力(TMSA)机制。

DiffiT在生成高保真度图像方面显示出惊人的效果,同时有着更好的参数效率。

5691638041893605e571f1c150a48cd9.png

论文地址:https://arxiv.org/pdf/2312.02139

字体文本生成

微软高级研究科学家Yuhui Yuan发文称,FontStudio模型已被ECCV 2024录用。

12964b607e8a1317cd72d8d4cbf617f5.png

正如模型名字所示,这是用于生成连贯一致字体效果的形状自适应扩散模型。

为了训出这个模型,研究人员精心策划了一个高质量形状自适应图像-文本数据集,并将分割掩码作为视觉输入条件,以引导不规则画布内图像生成的功能。

其次,为了保持多个字母之间的一致性,他们还提出了一种免训练的形状自适应效果转移方法,用于将纹理从生成的参考字母转移到其他字母。

实验结果显示,与无可匹敌的Adobe Firefly相比,用户在微软提出的FontStudio上的偏好更明显。

6f9dd1d8529dbd05f1b71af495345fd6.png

论文地址:https://arxiv.org/pdf/2406.08392

另外一篇微软联手清华北大、澳大利亚国立大学提出的文本编码器Glyph-ByT5也被录用。

75fcdf11a2a539cfac7dbc894680e03d.png

为了实现准确的文本渲染,研究人员确定了对文本编码器的两个关键要求:字符识别和与字形对齐。

他们提出了一种将Glyph-ByT5与SDXL有效集成的方法,从而创建了用于设计图像生成的Glyph-SDXL模型。

这显著提高了文本渲染的准确性,在作者设计的图像基准测试中,模型准确率从不到20%提升到了近90%。

值得注意的是,Glyph-SDXL新获得了文本段落渲染的能力,可以为数十到数百个字符实现高拼写准确率,并且具有自动多行布局功能。

81ea7dcd4350fcfb2eed65cab9267fd0.png

论文地址:https://arxiv.org/abs/2403.09622

你的论文被录用了吗?

最后借用网友一句勉励的话,「不论你的论文是否被ECCV录用,请记住你的价值和研究意义不仅仅局限于一个会议。每一次被拒都是走向成长的一步。继续前进,相信你的工作」!

9485ff5e70ad8df4621469d8e35055b4.png

参考资料:

https://x.com/eccvconf/status/1807781867250155582

https://x.com/WayneINR/status/1807798310071377945

https://x.com/CongyueD/status/1807804473311637875

https://x.com/bryanislucky/status/1807918906151194726

https://x.com/natanielruizg/status/1807838353129177293

https://www.reddit.com/r/MachineLearning/comments/1dsutwd/discussion_eccv_decisions_out_borderline_paper/

 
 
 
 

9d9dda17559748f17a9b2ba783fd27bc.jpeg

 
 
 
 
往期精彩回顾




适合初学者入门人工智能的路线及资料下载(图文+视频)机器学习入门系列下载机器学习及深度学习笔记等资料打印《统计学习方法》的代码复现专辑
  • 交流群

欢迎加入机器学习爱好者微信群一起和同行交流,目前有机器学习交流群、博士群、博士申报交流、CV、NLP等微信群,请扫描下面的微信号加群,备注:”昵称-学校/公司-研究方向“,例如:”张小明-浙大-CV“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~(也可以加入机器学习交流qq群772479961)

40b75eeed3724d69562d12e57ab9fffa.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值