真实世界实时人员重识别、烟雾分割、自然图像抠图、剪枝等近期相关论文分享

真实世界实时人员重识别

▌Real-Time Online Unsupervised Domain Adaptation for Real-World Person Re-identification


论文作者:Christopher Neff,Armin Danesh Pazho,Hamed Tabkhi

作者单位:University of North Carolina at Charlotte

论文链接:arxiv.org/abs/2306.0399

内容简介:

1)方向:真实世界实时在线无监督域适应

2)应用:人员重识别

3)背景:无监督域适应在人员重识别中很受欢迎,但是现有的研究忽略了真实世界应用中的一些限制,因此提出了真实世界实时在线无监督域适应(R 2^2OUDA设置的严格限制,其准确度与不能直接应用于真实世界应用的可比OUDA方法相差不到0.1%。

烟雾分割

▌FoSp: Focus and Separation Network for Early Smoke Segmentation


论文作者:Lujian Yao,Haitao Zhao,Jingchao Peng,Zhongze Wang,Kaijie Zhao

作者单位:East China University of Science and Technology

论文链接:arxiv.org/abs/2306.0447

内容简介:

1)方向:烟雾分割

2)应用:早期烟雾分割

3)背景:早期烟雾分割(ESS)可以准确识别烟雾源,有助于及时扑灭火灾和防止大规模气体泄漏。但是,由于早期烟雾的小尺度和透明外观,与传统的物体和常规烟雾分割相比,ESS面临更大的挑战,可能导致高漏检率和低精度。

4)方法:本文提出一种名为FoSp(Focus and Separation Network)的模型。首先,引入了一个Focus模块,采用双向级联,将低分辨率和高分辨率特征引导到中分辨率,以定位和确定烟雾的范围,从而降低漏检率。接下来,提出了一个Separation模块,将烟雾图像分离成纯烟雾前景和无烟雾背景,从根本上增强了烟雾和背景之间的对比度,提高了分割精度。最后,开发了一个Domain Fusion模块,将两个模块的独特特征集成起来,可以平衡召回率和精度,实现高F_beta。此外,为了促进ESS的发展,引入了一个高质量的真实世界数据集SmokeSeg,其中包含比现有数据集更多的小尺度和透明烟雾。

5)结果:实验结果表明,FoSp模型在三个可用数据集上均取得了最佳性能:SYN70K(mIoU:83.00%),SMOKE5K(F_beta:81.6%)和SmokeSeg(F_beta:72.05%)。特别是,在SmokeSeg上,FoSp的性能比SegFormer高出7.71%(F_beta),用于早期烟雾分割。

自然图像抠图

▌Matte Anything: Interactive Natural Image Matting with Segment Anything Models


论文作者:Jingfeng Yao,Xinggang Wang,Lang Ye,Wenyu Liu

作者单位:School of EIC, HUST

论文链接:arxiv.org/abs/2306.0412

内容简介:

1)方向:自然图像抠图算法

2)应用:图像处理、计算机视觉

3)背景:自然图像抠图算法需要使用trimap来指导透明度图的预测,但是生成trimap需要大量的人力,限制了抠图算法的大规模应用。

4)方法:本文提出Matte Anything模型(MatAny),一种交互式自然图像抠图模型,可以通过各种简单的提示生成高质量的alpha-matte。MatAny的关键是利用轮廓和透明度预测自动生成伪trimap。使用任务特定的视觉模型来增强自然图像抠图的性能。具体来说,使用Segment Anything模型(SAM)来预测高质量的轮廓,并使用开放词汇(OV)检测器来预测任何对象的透明度。然后,预训练的图像抠图模型使用伪trimap生成alpha-matte。MatAny是迄今为止支持交互方法最多且性能最佳的交互式抠图算法。它由正交视觉模型组成,无需任何额外的训练。

5)结果:将MatAny与几种当前的图像抠图算法进行了性能评估,结果表明了所提出方法的显著潜力。

剪枝

▌CFDP: Common Frequency Domain Pruning


论文作者:Samir Khaki,Weihan Luo

作者单位:University of Toronto

论文链接:arxiv.org/abs/2306.0414

项目链接:github.com/Skhaki18/CFD

内容简介:

1)方向:剪枝

2)应用:神经网络模型的优化和压缩

3)背景:神经网络剪枝是一种选择性地剪枝网络的不必要部分以创建更简化、高效的架构的方法。本文旨在通过频域方法揭示中间模型输出之间的互操作性及其在空间域之外的重要性。

4)方法:本文介绍一种新的端到端模型剪枝流程,即 Common Frequency Domain Pruning (CFDP)。该方法通过利用特征映射上定义的常见频率特征,对网络的各个通道进行排序,确定它们在学习表示中的重要性水平。

5)结果:CFDP的使用使得在CIFAR-10数据集上,GoogLeNet的准确率达到了95.25%,比原始模型提高了0.2%。在ImageNet数据集上,CFDP模型在仅使用55%的可训练参数和60%的浮点运算数(FLOPs)的情况下,超过了所有基准,并与原始模型性能相匹配。此外,通过CFDP产生的模型在各种配置下表现出鲁棒性,包括从未训练的神经网络架构剪枝和对抗性攻击的抵抗性。

手写文本识别

▌Recognition of Handwritten Japanese Characters Using Ensemble of Convolutional Neural Networks


论文作者:Angel I. Solis,Justin Zarkovacki,John Ly,Adham Atyabi

作者单位:University of Colorado Colorado Springs

论文链接:arxiv.org/abs/2306.0395

内容简介:

1)方向:手写文本识别

2)应用:识别手写日语汉字

3)背景:日语书写系统复杂,包括Hiragana(平假名)、Katakana(片假名)和 Kanji(汉字)三种字符类型,汉字数量众多,增加了字符识别和文学理解的复杂度。将手写日语汉字转换为数字文本对于数据分析、翻译、学习和文化保护非常有用。

4)方法:本文提出一种机器学习方法,用于分析和识别手写日语汉字。它使用三个卷积神经网络(CNN)的集成来识别手写汉字,并利用MNIST、K-MNIST、Kuzushiji-49(K49)和Kuzushiji-Kanji(K-Kanji)数据集进行性能评估。

5)结果:结果表明,使用所提出的CNN集成架构识别手写字符是可行的,在MNIST、K-MNIS、K49和K-Kanji数据集上分别实现了99.4%、96.4%、95.0%和96.4%的分类准确率。

视频编码

▌Video Compression with Arbitrary Rescaling Network


论文作者:Mengxi Guo,Shijie Zhao,Hao Jiang,Junlin Li,Li Zhang

作者单位:Bytedance Inc.

论文链接:arxiv.org/abs/2306.0420

内容简介:

1)方向:视频编码技术

2)应用:视频流媒体服务

3)背景:视频平台提供不同质量的视频流媒体服务,服务质量通常通过视频分辨率进行调整。因此,需要对高分辨率视频进行降采样以进行压缩。为了解决不同分辨率下的视频编码问题,提出了一种基于速率引导的任意重缩放网络(RARN),用于在编码之前调整视频大小。

4)方法:为了使RARN与标准编解码器兼容并生成压缩友好的结果,引入一种基于迭代优化的基于transformer的虚拟编解码器(TVC),用于模拟视频编码的关键组件并执行比特率估计。

5)结果:通过迭代训练TVC和RARN,在不同的编码配置和分辨率下,实现了5%-29%的BD-Rate降低,超过了大多数测试视频的先前方法。此外,轻量级的RARN结构可以以实时速度(91 FPS)处理FHD(1080p)内容并获得相当的速率降低。

人脸识别

▌A Quality Aware Sample-to-Sample Comparison for Face Recognition


论文作者:Mohammad Saeed Ebrahimi Saadabadi,Sahar Rahimi Malakshan,Ali Zafari,Moktari Mostofa,Nasser M. Nasrabadi

作者单位:West Virginia University

论文链接:arxiv.org/abs/2306.0400

内容简介:

1)方向:人脸识别

2)应用:提高人脸识别网络对低质量样本的识别能力

3)背景:现有的人脸数据集中高质量样本数量较多,低质量样本数量较少,导致人脸识别网络在训练时无法学习到低质量样本的分布,从而无法很好地识别低质量样本。

4)方法:本文提出一种基于质量感知学习的人脸识别方法(QAFace),将质量感知学习过程融入到分类训练范式中。通过使用质量感知函数,自适应地引导Softmax中心更多地关注低质量样本,从而在更新Softmax分类器时添加了基于质量的调整,提高了对低质量样本的识别能力。同时,QAFace通过使用特征大小作为质量的代理,忽略了无法识别的低质量样本,防止类中心偏离最优方向。

5)结果:在CFP-FP、LFW、CPLFW、CALFW、AgeDB、IJB-B和IJB-C数据集上的广泛实验结果表明,该方法优于现有的算法。

视觉问答(VQA)

▌Q: How to Specialize Large Vision-Language Models to Data-Scarce VQA Tasks? A: Self-Train on Unlabeled Images!


论文作者:Zaid Khan,Vijay Kumar BG,Samuel Schulter,Xiang Yu,Yun Fu,Manmohan Chandraker

作者单位:Northeastern University; NEC Labs America; Amazon; UC San Diego

论文链接:arxiv.org/abs/2306.0393

项目链接:github.com/codezakh/Sel

内容简介:

1)方向:视觉语言

2)应用:视觉问答(VQA)

3)背景:针对特定任务的VQA数据集通常比通用VQA数据集小得多,因此收集额外的标签可能具有挑战性,但未标记的图像通常是可用的。

4)方法:SelTDA(自学数据增强)是一种策略,用于在小规模VQA数据集上微调大型VLM。SelTDA使用VLM和目标数据集构建教师模型,该模型可以直接在仅有图像的情况下生成问题-答案伪标签,从而使我们能够为未标记的图像生成伪标签。然后,SelTDA在原始数据集上微调初始VLM,该数据集已用新生成的伪标签图像进行了增强。

5)结果:实验表明,SelTDA增加了对对抗搜索问题、反事实示例和改写的鲁棒性,提高了域泛化能力,并导致更好地保留了数值推理技能。该策略不需要额外的标注或架构修改,并且与任何现代编码器-解码器多模态transformer兼容。代码可在github.com/codezakh/Sel上获得。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小P学长

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值