无监督域适应、人体解析、视频异常检测和水果成熟度分类,推荐本周那些有意思的​CV综述...

关注公众号,发现CV技术之美

今天向大家推荐四篇近期发布的文献综述,包含无监督域适应、人体解析、视频异常检测和水果成熟度分类。

▌Source-Free Unsupervised Domain Adaptation: A Survey

523eb6b3aa8822d11b4fda7eceaa152a.png

  • 作者单位:北卡罗来纳大学教堂山分校

  • 论文链接:https://arxiv.org/abs/2301.00265

通过深度学习的无监督域适应(UDA)来解决由不同域的分布差异引起的域迁移问题。现有的 UDA 方法高度依赖于源域数据的可及性,由于隐私保护、数据存储和传输成本以及计算负担等原因,在实际应用场景中通常是有限的。

为了解决这个问题,业界近期提出了许多无源无监督域适应(SFUDA)的方法,这些方法在源数据不可访问的情况下,将知识从预先训练的源模型迁移到无标签的目标域。

该综述从技术角度对现有的 SFUDA 方法进行了及时和系统的文献回顾。具体来说,作者将目前的 SFUDA 研究分为两类,即白盒 SFUDA 和黑盒 SFUDA,如图1所示。 并根据它们使用的不同学习策略进一步划分为更细的子类别。还研究了每个子类别中的方法所面临的挑战,以及白盒和黑盒 SFUDA 方法的优势/劣势,总结了常用的基准数据集,并总结了在不使用源数据的情况下提高模型泛化能力的流行技术。最后讨论了该领域几个有前途的未来方向。

d432bb9a3ecd1c0979a747a412307f3e.png

图1 (a)传统的无监督领域适应(UDA),(b)白盒无源UDA(SFUDA),和(c)黑盒SFUDA,

根据对源模型进行微调的不同策略,将现有的研究分为以下五个子类别:

20a2199b8986d7e4181e8064bc853a18.png

图2 现有的无源无监督领域适应(SFUDA)方法的分类,以及未来展望

根据不同的图像生成策略,可以分为以下三个子类别:

b52aa18e154a58010221a60e150bfe24.png

图3 batch normalization statistics transfer

d114a8463b334a3a77fbbd3c5e4643a5.png

图4 surrogate source data construction

23fd67c8804d73348ec57bff813f2687.png

图5 GAN-based Image Generation

用于评估无源无监督域适应(SFUDA)方法性能的常用数据集一览:

e949940fd467e8e731fa5763b406c4f8.png

▌Deep Learning Technique for Human Parsing: A Survey and Outlook

e1147a4ead67565cf216d75884b0adbe.png

  • 作者单位:北京邮电大学

  • 论文链接:https://arxiv.org/abs/2301.00394

  • 代码链接:https://github.com/soeaver/awesome-human-parsing

人体解析的目的是将图像或视频中的人分割成多个像素级的语义部分。在过去的十年中,它在计算机视觉领域吸引了大量学者的研究兴趣,并在广泛的实际应用中得到了利用,如安全监控、社交媒体、视觉特效等等。尽管基于深度学习的人体解析解决方案已经取得了令人瞩目的成就,但许多重要的概念、现有的挑战和潜在的研究方向仍然是混乱的。

本篇综述通过介绍各自的任务设置、背景概念、相关问题和应用、代表性文献和数据集,全面回顾了三个核心子任务:Single human parsing (SHP)、Multiple human parsing (MHP) 和 Video human parsing (VHP),如图1所示。还介绍了这些方法在基准数据集上的定量性能比较。

此外,为了促进研究社区的可持续发展,作者还提出一个基于 transformer 的人体解析框架,如图6所示,通过通用的、简洁的和可扩展的解决方案为后续研究提供了一个高性能的基线。最后,指出了该领域中一系列未被充分研究的开放性问题,并提出了未来研究的新方向。

cad09b3b1a1782764ec25dc8739f5fdd.png

图1

e0ac0171a3ec37190800579e44f2ad47.png

图2 综述概览

表一 2012年至2022年具有代表性的人体解析工作时间轴。上半部分代表人体解析的数据集,下半部分代表人体解析的模型

2481674c4ac03fb69838c7b21b73583f.png

表7 现有人体解析数据集的统计数据

2135e8c29de926efffa57d40a1cb417d.png

表8 ATR 测试的SHP定量结果,包括像素精度(pixAcc)、前景像素精度(FGAcc)和F-1得分(F-1)。其中三个最好的分数分别用红色、蓝色和绿色标记。

a15229463de1caa646a9d22b182e990f.png

表9 LIP值的定量SHP结果,包括像素精度(pixAcc)、平均像素精度(meanAcc)和平均IoU(mIoU)。三个最好的分数分别用红色、蓝色和绿色标记。

b20ff8f418d139ba8d276ce904d2744f.png

更多结果展示:

d66e192488ca4f027a9bd74130917e88.png

0473a39644483a488283be315290d0dc.png

aaa00d304082a288be459b89930eb964.png

d0715e72284dea41f81ff0a5530d4152.png

图6 M2FP架构

60b12dfaea644712a52ef2fdcdaec28e.png

图7 M2FP与先前人体解析的最先进模型比较。M2FP在所有人类解析子任务上都取得了最先进的(PPP,CIHP和MHP-v2)或相当的性能(LIP)。

表14 M2FP在各种人体解析基准上的结果概述。标有下划线的表示以前的最先进结果;黑体字结果表示M2FP达到了新的最先进水平。

9ee0f80e3cb4fba94ca2a4aa8d06c613.png

▌Skeletal Video Anomaly Detection using Deep Learning: Survey, Challenges and Future Directions

b7a650848f1491dec5e227a7b29e00ba.png

  • 作者单位:多伦多大学&加拿大多伦多大学的教学医院、UHN

  • 论文链接:https://arxiv.org/abs/2301.00114

现有的视频异常检测方法大多利用含有可识别的人脸和外观特征的视频。其中使用含有可识别人脸的视频会引起隐私问题,特别是在医院或社区环境中使用时。而基于外观的特征也可能对基于像素的噪声很敏感,使异常检测方法对背景的变化进行建模,并使其难以关注前景中人类的行动。目前,以骨架形式描述视频中人类运动的结构信息的方法是保护隐私的,可以克服基于外观的特征所带来的一些问题。

本篇综述就对使用从视频中提取的骨架的隐私保护型深度学习异常检测方法进行了调研。并根据各种学习方法提出一个新的算法分类法。得到的结论是,基于骨架的异常检测方法可以成为视频异常检测中一个可信的保护隐私的选择。最后,确定了主要的开放式研究问题,并提供了解决这些问题的指南。

相关综述概览:

802c4dccd2e64ffcb8a3ccd72368d8e7.png

4d07fc0c5ede255ca9bf165ce40c8d59.png

▌Fruit Ripeness Classification: a Survey

f1afebd35250005e957e4f22c6e59ca3.png

  • 作者单位:Ca’ Foscari University (意大利)

  • 论文链接:https://arxiv.org/abs/2212.14441

本篇综述对水果成熟度分类任务提供了一个广泛的全景图。更具体地说,文中提供了这一问题的正式定义和一个涉及水果成熟的生物过程的总结。然后,讨论了可用于表示水果属性的不同类型的描述符:color, light spectrum, fluorescence,  spectral imaging。因此,被描述的属性可以由统计学、机器学习或深度学习模型来处理。此外,深度学习可以对原始数据进行操作,从而使用户不必计算特定水果的复杂的工程特征。本篇综述回顾了文献中提出的进行水果成熟度分类的最新的自动化方法,强调了它们所操作的最常见的特征描述符。

香蕉成熟度的示例阶段:

3bb2aca7a525d29f9b424864fca30901.png

枣子成熟度的示例阶段:

c480e7c7f37abd7c6d05a6e1c57ae5a5.png

公开数据集:

74ec36a1571862696568f1fe737edd8c.png

查看更多最新CV类综述论文,推荐关注CV君一直在维护的这个项目:

https://github.com/52CV/CV-Surveys

一键下载这些打包好的综述论文,请在我爱计算机视觉公众号后台输入关键字“CV综述”。

023cd753a3f745d6ae71fee07cdbd6e5.jpeg

END

欢迎加入「计算机视觉交流群👇备注:CV

49bbbb2ba8e050e1d43eb6e4e0272429.png

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值