顶会论文翻译
文章平均质量分 96
顶会论文关键内容翻译
墨理学AI
计算机视觉领域,新晋砖家 ☞
未来可期,欢迎和墨理一起学 AI 》 博主创建了很多CV领域的技术Club,欢迎主页左侧下方,Contact my WeChat;
展开
-
LayoutLMv3 : 基于统一文本和带Masking图像的文档AI预训练【论文翻译】
LayoutLMv3 来为文档智能领域预训练多模态 Transformer 模型,重新设计了 LayoutLM 的模型架构和预训练目标。与文档智能领域现有的多模态模型不同,LayoutLMv3 不依赖于预训练的 CNN 或 Faster R-CNN 骨干来提取视觉特征,从而显著减少了参数数量并消除了区域注释的需求原创 2023-11-17 08:00:00 · 913 阅读 · 0 评论 -
LayoutLMv2:多模态预训练用于富含视觉元素的文档理解【论文翻译】
LayoutLMv2(Xu等,2020)。与传统的LayoutLM模型不同,其中视觉嵌入是在微调阶段合并的,LayoutLMv2在预训练阶段通过利用Transformer架构来整合视觉信息,从而学习视觉和文本信息之间的跨模态交互。原创 2023-09-27 09:24:10 · 358 阅读 · 0 评论 -
LayoutLM【论文翻译】
在单个框架中联合学习文本和布局信息。它在多个下游任务中实现了新的最先进结果,包括表单理解(从70.72提高到79.27)、收据理解(从94.02提高到95.24)和文档图像分类(从93.07提高到94.42)原创 2023-09-12 09:28:37 · 371 阅读 · 2 评论 -
Benchmarking Chinese Text Recognition: Datasets, Baselines| OCR 中文数据集【论文翻译】
深度学习蓬勃发展的局面见证了近年来文本识别领域的迅速发展。然而,现有的文本识别方法主要针对英文文本。作为另一种广泛使用的语言,中文文本识别在各个领域都有广泛的应用市场。根据我们的观察,我们认为中文文本识别受到关注不足的原因在于缺乏合理的数据集构建标准、统一的评估协议以及现有基准结果。为了弥补这一空白,我们从公开的竞赛、项目和论文中手动收集了中文文本识别数据集。根据应用场景,我们将收集到的数据集分为场景、网络、文档和手写数据集四类。此外,我们在中文文本识别中规范了评估协议。原创 2023-08-31 12:39:12 · 1354 阅读 · 0 评论 -
Personalize Segment Anything Model with One Shot【论文翻译】
通过大数据预训练驱动,分段任意模型(Segment Anything Model,SAM)已被证明是一个强大且可提示的框架,革新了分割模型。尽管其具有普遍性,但在没有人力提示的情况下,定制SAM以适应特定的视觉概念仍未得到充分探索,例如自动在不同的图像中分割您的宠物狗。在本文中,我们提出了一种无需训练的个性化方法,称为PerSAM,用于SAM原创 2023-08-20 18:07:06 · 277 阅读 · 4 评论 -
Segment Anything【论文翻译】
我们介绍Segment Anything(SA)项目:这是一个全新的任务、模型和图像分割数据集。通过在数据收集循环中使用我们高效的模型,我们建立了迄今为止最大的分割数据集(远远超过其他数据集),包含超过10亿个掩码和1100万张获得许可且尊重隐私的图像。该模型被设计和训练为可提示性,因此它可以将零样本迁移到新的图像分布和任务上。我们对其在多个任务上的能力进行评估,并发现其零样本性能令人印象深刻,通常与或甚至优于以前的完全监督结果相竞争。原创 2023-08-07 20:00:00 · 561 阅读 · 2 评论 -
SVTR: 使用单一视觉模型进行场景文本识别【论文翻译】
场景文本识别旨在将自然图像中的文本转录为数字字符序列,以传达对场景理解至关重要的高层语义信息。该任务具有挑战性,原因在于文本变形、字体、遮挡、杂乱背景等的变化。在过去的几年中,人们做出了许多努力来提高识别准确性。现代文本识别器除了准确性外,还考虑到了推理速度等因素,以满足实际需求。原创 2023-07-23 08:43:40 · 526 阅读 · 2 评论