自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

白水空空

努力努力再努力

  • 博客(334)
  • 资源 (13)
  • 收藏
  • 关注

原创 【读点论文】Vary: Scaling up the Vision Vocabulary for Large Vision-Lang...构建更泛化的中文视觉语言词表,继承了SAM和CLIP知识

此外,我们将每个文档页面的文本基本事实转换为 mathpix markdown 样式以统一格式。通过此构建过程,我们获得了 50 万个英文页面和 40 万个中文页面。部分样本如图 4 所示。图4:合成数据可视化。我们使用pdflatex来渲染文档,使用pyecharts/matplotlib来渲染图表。文档数据包括中英文文本、公式、表格等。图表数据包括中英文条形图、折线图、饼图、组合图等。语义关联图渲染。在第 3.2.2 节中,我们批量渲染图表数据来训练新的词汇网络。

2024-09-20 10:51:34 832

原创 【读点论文】Text Recognition in the Wild: A Survey 非常纯粹的OCR研究,专业细致,脉络清晰

文本是用于记录、交流或传承文化的符号系统。作为人类最具影响力的发明之一,文本在人类生活中发挥着重要作用。具体而言,文本所携带的丰富而精确的语义信息在各种基于视觉的应用场景中都非常重要,例如图像搜索 、智能检测 、工业自动化 、机器人导航 和即时翻译 。因此,自然场景中的文本识别引起了研究人员和从业人员的关注,最近的“ICDAR 稳健阅读竞赛”的出现就表明了这一点 。识别自然场景中的文本,也称为场景文本识别 (STR),通常被视为光学字符识别 (OCR) 的一种特殊形式,即基于相机的 OCR。尽管扫描文档中

2024-09-18 19:19:31 1531

原创 【读点论文】General OCR Theory: Towards OCR-2.0 via a Unified End-to-end Model很有潜力的一个项目,希望有更多的开发者赋能,文档更完善

此外,为了进一步提升 GOT 的实用性,我们还采用了细粒度 OCR 功能以提高交互性,针对超高分辨率图像(例如超过 2K)的动态分辨率策略,以及多页 OCR 技术来缓解 PDF 图像-文本对中分页困难的问题(例如,.tex 文件中的分页符)。图10:我们并没有特别为GOT引入除中文和英文之外的额外OCR能力,但我们爬取的PDF数据中可能含有少量其他语言的文字,导致GOT看似具备识别其他语言的能力,但我们无法保证其他语言的OCR质量,因此如果需要该功能,建议使用相应数据对模型进行微调。

2024-09-14 16:33:05 1231

原创 【读点论文】WEAKLY-SUPERVISED TEXT INSTANCE SEGMENTATION 通过文本转录信息就能实现字符实例分割,看示例效果可以,期待源码开放解析

由于分割模块的伪标签来自识别器生成的注意力图,如果识别器对文本实例位置的认识有错误,细化模块将不会产生有效的伪标签,如图 6 所示。此外,正如中间一行所示,一个有趣的观察是,对于像“C”、“O”和“D”这样的文本实例,它们初始注意力的细化有时会被它们自己的空心结构误导(这是不可避免的),并且模型需要长时间的联合训练才能摆脱这种空心陷阱。因此,当识别模块和分割模块进行联合训练时,识别器生成的注意图逐渐学会更接近相应文本实例的形状(如图 7(c)和图 7(d)所示),从而为分割模块提供质量更好的伪标签。

2024-09-11 19:14:34 1058

原创 【读点论文】Confident Learning: Estimating Uncertainty in Dataset Labels将错误的标签找出来,但是能处理定位、回归任务的标签嘛

置信学习的实用性,发现在 ImageNet、Amazon Reviews、MNIST 和其他数据集中存在大量预先存在的标签问题,并通过在清理过的数据集上进行训练来提高深度神经网络等学习模型的性能。**置信学习促使人们进一步了解数据集不确定性估计、清理训练和测试集的方法,以及识别数据集管理的本体和标签问题的方法**。未来的方向包括在更多数据集上验证 CL 方法,例如 OpenML 基准、多模态自我中心通信 (EgoCom) 基准 和现实的噪声标签基准 CNWL ;使用其他非神经网络模型(如随机森林和 XGBo

2024-09-10 19:48:00 1180

原创 【读点论文】Multi-modal Text Recognition Networks: Interactive Enhancements between Visu..将视觉特征和语义特征结合起来

JVSR 仍然在 IC15L 上保持最佳位置,但 MATRN 在其他数据集上显示出巨大的性能提升:在 IIIT 上 1.4pp,在 SVT 上 2.8pp,在 IC13L 上 0.3pp,在 SVTP 上 4.9pp,在 CUTE 上 3.8pp。MATRN 由三个应用于视觉和语义特征的拟议模块组成:(1)多模态特征增强,结合双模态来增强每个特征,(2)语义空间编码,链接两种不同模态,(3)视觉线索掩蔽策略,刺激视觉和语义特征之间的交叉引用。在我们的分析中,我们测量了每个数据集上的单词预测准确率。

2024-09-04 19:53:54 1256

原创 【读点论文】COCO-Text: Dataset and Benchmark for Text Detection and Recognition in Na ...了解一种数据集构建方式

该数据集基于 MS COCO 数据集,其中包含复杂的日常场景图像。这些图像在收集时并未考虑文本,因此包含各种各样的文本实例。为了反映自然场景中文本的多样性,**我们用以下方式注释文本:(a) 根据边界框的位置、(b) 细粒度分类为机器打印文本和手写文本、(c) 分类为可读文本和不可读文本、(d) 文本脚本和 (e) 可读文本的转录。该数据集包含超过 63k 张图像中的超过 173k 条文本注释**。我们对注释的准确性进行了统计分析。此外,我们还对数据集上三种领先的最新照片光学字符识别 (OCR) 方法进行了

2024-09-03 18:51:58 797

原创 【读点论文】Defect Spectrum: A Granular Look of Large-Scale Defect Datasets with Rich Semantics,基于扩散模型的生成

图 4 © 展示了此策略的有效性。我们的模型有两个关键超参数:切换时间步长 u 和小模型的感受野。它们都可以控制保真度和多样性之间的权衡。我们使用 FID 来衡量生成保真度。LPIPS 最初用于衡量两幅图像之间的相似性,分数越低表示相似度越高,反之亦然。在这种情况下,为了实现更高的生成多样性和保真度,我们希望在相似的 FID 分数下保持更高的 LPIPS 分数。由于页数限制,切换时间步长u和小模型的感受野的详细选择可以在附录的B节中找到。

2024-09-03 09:13:55 1226

原创 【读点论文】Scene Text Detection and Recognition: The Deep Learning Era

本综述旨在总结和分析深度学习时代场景文本检测与识别的重大变化和重大进展。通过这篇文章,我们致力于:(1)介绍新的见解和想法;(2)突出最近的技术和基准;(3)文字作为人类语言的书面形式,使得人们能够跨越时间和空间可靠、有效地传播或获取信息。从这个意义上说,文字构成了人类文明的基石。展望未来趋势。 具体来说,我们将强调深度学习带来的巨大差异和仍然存在的巨大挑战。我们希望这篇评论文章能成为该领域研究人员的参考书。相关资源也收集在我们的 Github 存储库

2024-08-30 16:04:53 1441

原创 【读点论文】Text detection and localization in scene images: a broad review

文本检测和定位在文本分析系统领域已广受欢迎,因为它们为大量实时应用铺平了道路,例如移动音译技术、视障人士辅助方法等。 文本检测和定位技术用于查找图像中文本区域的位置。本文打算从五个方面对该领域进行广泛的回顾:(1)文档图像与场景图像的比较以及自然场景图像的应用,(2)用于不同语言文本检测和定位的重要且最新的传统机器学习和基于深度学习的方法,(3)各种公开可用的基准数据集,(4)其他基准数据集的比较分析,以及(5)该领域的相关挑战和未来范围。本文总结了该领域的一些潜在方法,可以为研究人员未来探索该领域提供有用

2024-08-29 11:27:26 1189

原创 【读点论文】EAFormer: Scene Text Segmentation with Edge-Aware Transformers通过更细致的文本边缘检测和过滤,低级图像特征助力得到精确文本分割

图 1:使用不同文本蒙版作为输入的下游应用程序(文本擦除)结果比较。文本边缘的更精确分割有利于文本擦除任务,因为错误预测的文本像素更少,并且为修复模型保留了更多背景信息。为了验证 EAFormer 的有效性,我们在六个文本分割基准上进行了大量实验。结果表明,EAFormer 确实可以提高基线模型的分割性能。然而,如前所述,COCO_TS 和 MLT_S 的标注不够准确,这可能会使这两个数据集上的实验结果难以令人信服。

2024-08-27 11:17:19 798

原创 【读点论文】Adaptive degraded document image binarization,真难复现,流程有点复杂

所提出的方法已使用各种退化图像文档进行了广泛测试,并且与四 (4) 种众所周知的技术相比表现出色。本文的结构如下。第 2 节简要回顾了最新技术,特别强调了我们在实验中使用的局部自适应方法,以便进行比较。第 3 节详细描述了我们的方法,而第 4 节讨论了我们的实验结果。最后,第 5 节得出结论。

2024-08-21 20:03:48 1005

原创 【读点论文】A SURVEY ON DEEP LEARNING BASED DOCUMENT IMAGE ENHANCEMENT,复杂场景的文档预处理任务还有很多进步空间

与大多数仅试图改善已降级文档的视觉质量的文档二值化方法不同,所提出的架构集成了一个手写文本识别器,可使生成的文档图像也更清晰易读。为此,他们采用了 CycleGAN 模型,这是一个非配对的图像到图像转换网络,用于清理嘈杂的文档。严重褪色和/或褪色不均匀的文件难以阅读,对 OCR 来说非常具有挑战性,并且会严重影响 OCR 的性能,而轻微褪色的文件通常仍然清晰可辨,OCR 可以识别。此外,要训练深度学习模型(针对轻微和严重褪色的文件),需要训练数据集,但与上面讨论的任务类似,没有这样的数据集可供公开使用。

2024-08-20 09:19:59 1008

原创 计算机网络中用于远程访问和文件传输的不同方式

SSH和SFTP提供了最安全的远程访问和文件传输方式。Telnet和FTP不安全,但简单易用。RDPVNCXDMCP用于图形界面的远程访问。WSL和AWS S3分别提供了本地Linux环境和云存储服务。MOSH特别适合移动设备和不稳定网络环境下的远程连接。

2024-08-16 08:57:59 736

原创 【读点论文】ABCNet v2: Adaptive Bezier-Curve Network for Real-time End-to-end Text...,模块分解实现端到端的不规则文本识别

图 1 显示了可视化比较,从中可以看出生成的结果在视觉上甚至比原始注释更好。此外,由于结构化输出,可以通过应用我们提出的 BezierAlign(参见 §3.3)轻松地制定文本识别任务,它将弯曲的文本扭曲为水平表示。图 4 显示了更多贝塞尔曲线生成的结果。我们的方法很简单,可以以统一的表示格式处理各种形状。图 4 – 贝塞尔曲线生成示例结果。绿线为最终贝塞尔曲线结果。红色虚线表示控制多边形,4 个红色端点表示控制点。放大后可获得更好的可视化效果。

2024-08-15 09:13:49 793

原创 【读点论文】ABCNet: Real-time Scene Text Spotting with Adaptive Bezier-Curve...通过线性插值的扩展版用8个点去拟合不规则文本框

BezierAlign 从RoI扩展而来,但是采样网格不是矩形。任意形状网格的每一列都与文本的Bezier曲线边界正交。采样点的宽度和高度分别为等距间隔,并对坐标进行双线性插值。

2024-08-14 14:03:30 643

原创 【读点论文】TextFuseNet: Scene Text Detection with Richer Fused Features,多角度层次理解任意形状文本检测任务

文本片段根据它们的关系被链接起来作为最终的检测结果。如图2所示,在FPN输出的基础上构造语义分割分支,将各个层次的特征融合到一个统一的表示中,并在这个统一的表示上进行分割在实践中,我们应用1×1卷积来对齐来自不同级别的特征的通道号,并将特征图调整为相同的大小,以便稍后统一。由于字符的数量不是固定的,并且可以从零到数百个,对于给定的检测到的单词 ri,我们将集合Ci中的字符的特征融合到统一的表示中。在所提出的架构中,我们从不同的路径中提取多级特征,并将它们融合以获得更丰富的特征,以帮助学习更具鉴别力的表示。

2024-08-12 09:04:37 595

原创 【读点论文】Arbitrary Shape Text Detection via Boundary Transformer 任意形状的文本边界检测,边界能量损失约束细化边界

场景文本检测是计算机视觉中一项必不可少的基本任务,因为它是各种文本相关应用(如文本识别、文本检索、文本视觉问答和在线教育)中的重要步骤。 得益于基于 CNN 的对象检测和实例分割的快速发展,场景文本检测取得了重大进展,并且对于规则形状或长宽比的文本取得了令人印象深刻的性能。作为文本检测中最具挑战性的任务之一,任意形状文本检测越来越受到研究界和工业界的关注。与使用边界框的一般对象检测不同,任意形状文本检测应探索每个单独文本的不规则边界。基于连通分量 (CC) 的方法 使用顺序分量或局部框对文本实例进行建模。基

2024-08-08 16:13:04 783

原创 【读点论文】Language Matters: A Weakly Supervised Vision-Language Pre-training Approach for STP,弱监督预训练OCR

仅通过从文本信息中学习语言知识即可预测掩码字符。我们在图 4 中说明了解码器的注意力图,以证明所提出的视觉文本解码器的有效性。对于图 4 中的每个样本图像,我们将三个文本实例(带有掩码字符 [M])传入我们的网络,我们获得三个注意力图和三个预测掩码字符,每个字符对应于一个输入文本实例。如图 4 所示,视觉文本解码器不仅可以预测掩码字符(例如,“ST[M]RLING”的“I”),而且还能很好地关注图像中相应掩码字符的区域。

2024-08-07 11:09:49 884

原创 【读点论文】场景图像中文本检测和识别关键技术研究-博士学位论文

其中文本检测的目的是定位出图像中文本的位置,文本识别旨在识别出文本区域的字符序列内容,端到端文本识别的任务是同时定位出文本区域的位置并识别出对应的文本内容。两阶段的端到端文本识别方法将文本检测和文本识别看作是两个独立的任务,这些方法一般将两个单独训练好的文本检测器和文本识别器结合起来以检测并识别文本。基于单词的文本识别方法一般只能识别词库中的文本,而不能识别词库之外的文本,并且和基于字符的文本识别方法一样,它们没有利用同一个单词中不同字符间的语义上下文信息,从而导致该类方法的性能不能满足应用需求。

2024-08-06 18:41:52 713

原创 【读点论文】DPText-DETR: Towards Better Scene Text Detection with Dynamic Points in Transformer

例如,表中第 1 行和第 2 行的比较表明,Total-Text 上的 F 值提高了 0.68%,Rot.TotalText 上的 F 值提高了 3.90%,Inverse-Text 上的 F 值提高了 3.07%,验证了模型鲁棒性的有效性。但是,大多数免费的商用 OCR 系统都经过训练,可以识别文档中的文本。例如,当训练数据量为25%时,与仅配备EPQM的模型相比,同时配备EPQM和EFSA的模型在Total-Text上获得了11.95%的F值,在Inverse-Text上获得了7.83%的F值。

2024-08-06 11:29:04 849

原创 【读点论文】自然场景文本检测与识别的深度学习方法,分门别类的给定义做调研,对初入门者非常友好的工作,文本检测,识别,端到端识别

文本在日常生活中扮演着十分重要的角色。场景文本理解任务具有其独特的现实应用价值和研究挑战性,该任务主要包括自然场景文本检测和自然场景文本识别。本文主要介绍了自深度学习发展以来自然场景文本检测、识别以及端到端文本检测与识别的发展现状和水平,分析了国际国内最新的研究成果,对比总结了不同方法的技术特点和局限性最后列举了本文所介绍的所有方法在主流的公开数据集上的性能。本文描绘了一幅自然场景文本理解领域的研究蓝图,希望本工作对于领域研究人员及未来发展有所助益。

2024-08-01 19:30:29 360

原创 【读点论文】Visual Text Meets Low-level Vision: A Comprehensive Survey on Visual Text Processing

视觉文本是文档和场景图像中的关键元素,在计算机视觉领域具有重要意义并引起了广泛关注。除了视觉文本检测和识别之外,视觉文本处理领域的研究也经历了激增,这得益于基础生成模型的出现。然而,由于文本具有区别于一般对象的独特属性和特征,因此挑战依然存在。正如我们在研究中观察到的那样,有效利用这些独特的文本特征对于视觉文本处理至关重要。在本次调查中,我们对该领域的最新进展进行了全面的多视角分析。首先,我们引入了一个分层分类法,涵盖了从文本图像增强和恢复到文本图像处理等领域,然后是不同的学习范式。随后,我们深入讨论了..

2024-08-01 14:05:21 394

原创 【读点论文】Object Detection in 20 Years: A Survey,宏观了解大方向发展,常看常新,这篇越看到后面越泛

在过去的 20 年中,目标检测取得了令人瞩目的成就。本文广泛回顾了 20 年历史中的一些里程碑式检测器、关键技术、加速方法、数据集和指标。一多参考和多分辨率检测现在已成为最先进的物体检测系统中的两个基本组成部分。2)Context Priming 的技术演进:视觉对象通常嵌入到与周围环境相关的典型情境中。我们的大脑利用物体和环境之间的关联来促进视觉感知和认知。Context Priming 长期以来一直用于改进检测。图 6 展示了物体检测中 Context Priming 的演进。物体检测中情境启动的演变。

2024-07-31 19:07:12 722

原创 c++头文件写作需要注意一点规则

值得一提的是,它本身是没有其它任何作用与副功能的,它的作用就是把每一个它出现的地方,替换成它后面所写的那个文件的内容。同理可知,如果我们除了 main.cpp 以外,还有其他的很多 .cpp 文件也用到了 f1 和 f2 函数的话,那么它们也通通只需要在使用这两个函数前写上一句 #include “math.h” 就行了。设想一下,如果 a.h 中含有类 A 的定义,b.h 中含有类 B 的定义,由于类B的定义依赖了类 A,所以 b.h 中也 #include了a.h。于是,头文件便可以发挥它的作用了。

2024-07-30 16:27:45 908

原创 【读点论文】分割一切模型SAM的潜力与展望。中文综述,写作蛮细致的

Kirillov等人构建的数据集 SA-1B 由1 100万幅不同的高分辨率图像和11亿幅高质量的分割掩码图像组成。其中,99.1%的掩码是自动生成的,这些新图像的分辨率明显高于许多现有的图像分割数据集。在对比实验中,与以往专业人工标注的掩码相比,自动生成的掩码质量更高,对训练模型也更加有效。

2024-07-30 14:56:22 528

原创 【读点论文】Segment Anything Is Not Always Perfect: An Investigation of SAM on Different...

实际上,专用的预训练数据集很难涵盖大量不寻常的现实世界场景和成像模式,特别是对于具有各种条件(例如,低光、鸟瞰图、雾、雨)或采用各种输入模式(例如,深度、红外、事件、点云、CT、MRI)以及大量现实世界应用的计算机视觉社区。SAM 在以下应用上的定量结果:(a) 常见场景中的显著物体分割、(b) 低对比度场景中的显著物体分割、© 低光场景中的显著物体分割、(d) 具有高精度细节的显著物体分割(即二分图像分割)、(e) 伪装物体分割、(f) 阴影检测、(g) 隐蔽工业缺陷检测和 (h) 医学息肉病变分割。

2024-07-26 17:32:19 670

原创 【读点论文】Enhancing Multimodal Large Language Models with Vision Detection Models: An Empirical Study

更换检测模型后训练效果的继承。在表 5 中,我们比较了将检测模型 DINO 替换为 Grounding DINO 后 TFI-7B 和 FTBI-7B 的性能。我们使用 VQAv2、GQA∗、POPE、MM-Vet 和 SEED-Bench 进行评估,因为它们包含可以提取有效名词短语的问题。由于 Grounding DINO 的检测准确率较低,因此引入了一些噪音,导致两个模型的评估分数与 LLaVA-1.5-7B 相比有所降低。

2024-07-25 19:40:46 830

原创 【读点论文】An Empirical Study of Scaling Law for OCR,又提出一个数据集,真实样本:合成样本=1:3。在TrOCR和PARSeq上大力出奇迹

在自然语言处理 (NLP) 领域,模型大小、数据量、计算和模型性能的规律已经得到广泛研究。然而,光学字符识别 (OCR) 中的缩放规律尚未得到研究。为了解决这个问题,我们进行了全面的研究,包括检查文本识别领域的性能与模型规模、数据量和计算之间的相关性。 总而言之,当其他影响因素保持不变时,研究表明性能与模型大小以及训练数据量之间存在平滑的幂律。此外,我们构建了一个名为 REBU-Syn 的大型数据集,其中包含 600 万个真实样本和 1800 万个合成样本。基于我们的缩放规律和新数据集,我们成功训练...

2024-07-24 15:20:26 704

原创 【读点论文】The Segment Anything Model (SAM) for Remote Sensing Applications: ... 感觉行文、绘图不太行,方法介绍有点水

这种效率对于大规模遥感应用至关重要,因为及时处理大量数据至关重要。然而,我们的研究只是对该模型的初步探索,其中仍有许多需要研究的地方。在本节中,我们将讨论 SAM 的未来前景以及如何改进它。尽管 SAM 具有潜力,但在应用于遥感图像时仍存在一些局限性。

2024-07-23 16:22:31 992

原创 【读点论文】torchdistill Meets Hugging Face Libraries for Reproducible, Coding-Free Deep Learning Studies

这些可以在实验开始时加载 PyYAML 配置文件时简单地完成,并使配置文件更加不言自明,因为初始版本使用的配置格式没有明确告诉用户实验是否需要特定的本地包。这些功能还帮助我们概括了定义关键模块(例如数据集及其组件(例如预处理转换、采样器))的方法。下图展示了使用初始版本和本工作中的 torchdistill 构建图像/张量变换序列的示例。

2024-07-18 19:48:13 830

原创 【读点论文】torchdistill: A Modular, Configuration-Driven Framework for Knowledge Distillation,文件配置完成知识蒸馏

我们框架中模块抽象的一个目标是让研究人员只需更改第 2.3 节中描述的 PyYAML 配置文件即可试验各种模块。我们将抽象重点放在要进行实验的关键模块上,特别是模型架构、数据集、转换和训练期间要最小化的损失。这些模块通常在作者发布的框架 中是硬编码的(参见附录 A),许多超参数也是硬编码的。模型架构:torchvision 为视觉任务提供了各种模型系列,从 AlexNet 到 R-CNN ,其中许多模型都是在大型基准数据集上进行预训练的。

2024-07-17 18:34:39 1118

原创 【读点论文】Low-Light Image Enhancement Using Gamma Correction Prior in Mixed Color Spaces,对低光恢复细节高效预处理

ASM 是一种物理图像退化模型,广泛应用于计算机视觉和图像处理,尤其是在图像去雾框架中。ASM 可以通过反转低光图像应用于 LIE。该框架需要精确的传输图估计。在我们之前的工作 [Low-light image enhancement using inverted image normalized by atmospheric light] 中,传输是以色调、饱和度和值 (HSV) 颜色空间中单个未知饱和度分量的闭式形式推导出来的。对于选定的饱和拉伸函数,提出了一种图像饱和拉伸函数的自适应形状。高光照欠佳

2024-07-16 15:29:06 675

原创 【读点论文】Group-Mix SAM: Lightweight Solution for Industrial Assembly Line Applications,MobileSAM做教师模型

本文针对MobileSAM因边缘计算机计算能力不足、内存占用过多而无法部署在流水线上的问题,提出了用更小的图像编码器结构Groupmixformer取代MobileSAM编码器中原有的ViT-T结构,取得了很好的效果,将得到的模型命名为Group-Mix SAM。在实际的流水线中,负责运行算法的是边缘计算机,这些边缘计算机的购买通常受限于价格,存在内存不足、计算能力弱等问题。因此,为了在实际的流水线场景中部署使用,我们需要将重量级的图像编码器替换为轻量级的图像编码器,以减小 SAM 的大小。

2024-07-13 16:28:16 838

原创 【读点论文】EFFICIENT MODULATION FOR VISION NETWORKS,构建了一个高效的特征调制块,配套做了很多的实验,探讨了一些推理速度与模型设计及平台配置的关系

提出了高效调制 (EfficientMod),这是一种统一的基于卷积的构建块,它结合了卷积和注意机制的有利特性。EfficientMod 同时提取空间上下文并投射输入特征,然后使用简单的元素乘法将它们融合在一起。EfficientMod 的优雅设计满足了效率要求,而固有的设计理念则保证了出色的表示能力。借助 EfficientMod,我们构建了一系列高效模型。大量实验检验了我们方法的效率和有效性。EfficientMod 在经验结果和实际延迟方面都优于以前的 SOTA 方法。当应用于密集预测任务时也不错

2024-07-11 16:52:19 943

原创 【读点论文】ASAM: Boosting Segment Anything Model with Adversarial Tuning,对抗学习提升性能

基础模型的概念在推动自然语言处理 (NLP) 领域以及最近的计算机视觉领域中发挥了关键作用。这些模型起源于 NLP,具有影响力的模型包括 BERT 、GPT 系列 、LLaMA 和 PaLM ,它们展示了对未见过的任务的出色零样本泛化能力。这一成功刺激了计算机视觉领域类似范式转换模型的发展。 这些视觉基础模型,例如 DINOv2 、CLIP 、BLIP 、SAM 和 Stable Diffusion ,展示了出色的零样本能力和跨各种任务的广泛泛化能力。其中,Segment Anything Model

2024-07-10 19:39:50 1002

原创 【读点论文】All-In-One Image Restoration for Unknown Corruption用对比学习统一方法实现多种噪声图片的有效处理

单幅图像复原旨在从给定的劣化对应关系(例如嘈杂、下雨或朦胧的图像)中生成视觉上令人愉悦的高质量图像。在过去的几年中,图像复原已广泛应用于从自动驾驶到医学成像和监控等许多现实世界应用中。尽管在去噪、去模糊、去雨和去雾等特定领域已经取得了有希望的成果,但图像恢复在实践中遇到了以下障碍。一方面,有必要了解正确的损坏(即退化)以选择有竞争力的模型,因为几乎所有现有方法都只能处理特定的退化。一旦退化类型甚至损坏率发生变化,由于实际情况与模型构建或训练所采用的先验不一致,模型将获得不理想的性能。另一方面,退化通常会在复

2024-07-09 10:26:23 1204

原创 【读点论文】Details preserved brightness equalization algorithm for non-uniform illumination images

将本文算法与几种近几年光照不均图像增强方法进行比较,如 Kong等提出的基于增强子的非均匀图像增强算法(EBCE)、王殿伟等提出的基于改进二维伽马函数自适应亮度校正算法(ACA)、Wang 等提出的自然度保持的非均匀照明图像增强方法(NPEA),其结果显示于图 4~图 11 中。NPEA 算法对于保持图像自然度和细节占有优势,但其对光照的双对数变换处理使其对于弱光照区域的细节增强处于劣势,如图 4(d)中拱门内白色电线轨迹较不明显,图 9(d)、图11(d)中墙体产生伪边缘。增强度越高,则增强效果越明显。

2024-07-08 17:55:11 691

原创 【读点论文】基于二维伽马函数的光照不均匀图像自适应校正算法

摘 要:提出了一种基于二维伽马函数的光照不均匀图像自适应校正算法.利用多尺度高斯函数提取出场景的光照分量,然后.通过与经典算法对比表明,本文算法可以更好地降低光照不均匀对图像的影响,提高图像的质量.

2024-07-05 18:00:22 772

原创 【读点论文】Gray level thresholding in badly illuminated image,光照不均匀的二值化

大多数灰度阈值化方法在原始栅格图像中光照梯度规律且不大的情况下能够产生非常好的结果。在其他情况下,比如光照变化幅度较大时,就无法生成令人满意的二值图像。一种方法是首先定位目标像素,。可以有很高的把握地认为,。Local Intensity Gradient (LIG) 是一种基于局部图像属性分析的方法,主要用于图像处理和计算机视觉领域,尤其是在边缘检测、特征提取和图像分割等任务中。:图像中的每一个像素点都有一个灰度值,灰度梯度描述的是相邻像素间灰度值的变化率。

2024-07-02 13:27:52 1103 1

2021-2022年的高精度模型,swin transformer.convnext等

目前Transformer应用到图像领域主要有两大挑战: 视觉实体变化大,在不同场景下视觉Transformer性能未必很好 图像分辨率高,像素点多,Transformer基于全局自注意力的计算导致计算量较大 针对上述两个问题,我们提出了一种包含滑窗操作,具有层级设计的Swin Transformer。 其中滑窗操作包括不重叠的local window,和重叠的cross-window。将注意力计算限制在一个窗口中,一方面能引入CNN卷积操作的局部性,另一方面能节省计算量。 ConvNeXt并没有特别复杂或者创新的结构,它的每一个网络细节都是已经在不止一个网络中被采用。而就是靠这些边角料的互相配合,却也达到了ImageNet Top-1的准确率。它涉及这些边角料的动机也非常简单:Transformer或者Swin-Transformer [3]怎么做,我也对应的调整,效果好就保留。当然这些边角料的摸索也是需要大量的实验数据支撑的,是一个耗时耗力耗资源的过程。通过对ConvNeXt的学习,我等调参侠不仅可以学习到诸多的炼丹经验,还可以一探其背后原理.

2023-02-04

轻量化混合(卷积和transformer)网络,发论文的热点

CNN的成功依赖于其两个固有的归纳偏置,即平移不变性和局部相关性,而视觉Transformer结构通常缺少这种特性,导致通常需要大量数据才能超越CNN的表现,CNN在小数据集上的表现通常比纯Transformer结构要好。 CNN感受野有限导致很难捕获全局信息,而Transformer可以捕获长距离依赖关系,因此ViT出现之后有许多工作尝试将CNN和Transformer结合,使得网络结构能够继承CNN和Transformer的优点,并且最大程度保留全局和局部特征。 Transformer是一种基于注意力的编码器-解码器结构,最初应用于自然语言处理领域,一些研究最近尝试将Transformer应用到计算机视觉领域。 在Transformer应用到视觉之前,卷积神经网络是主要研究内容。受到自注意力在NLP领域的影响,一些基于CNN的结构尝试通过加入自注意力层捕获长距离依赖关系,也有另外一些工作直接尝试用自注意力模块替代卷积,但是纯注意力模块结构仍然没有最先进的CNN结构表现好。

2023-02-03

mobilenet系列V1-V3

MobileNet网络是由google团队在2017年提出的,专注于移动端或者嵌入式设备中的轻量级CNN网络。相比传统卷积神经网络,在准确率小幅降低的前提下大大减少模型参数与运算量。(相比VGG16准确率减少了0.9%,但模型参数只有VGG的1/32) MobileNet v2网络是由google团队在cvpr2018年提出的,相比MobileNet v1网络,准确率更高,模型更小。 MobileNet v3发表于eccv2019年,该v3版本结合了v1的深度可分离卷积、v2的Inverted Residuals和Linear Bottleneck、新添加了SE模块,利用NAS(神经结构搜索)来搜索网络的配置和参数。

2022-06-05

shufflenetV1

入门理解级,了解shufflenet的核心内容

2022-06-05

图像分类方向的研究写作,中文学报写作格式,从数据集,经典网络角度分析。

从早期生物神经网络研究,到神经网络从实现深度化,模块化,引入注意力机制,再到实现高效化神经网络。这个时间节点比较火热的autoML,神经架构搜索技术等了解图像分类不仅仅只需要精度。

2022-06-05

人脸识别综述及应用,了解一下

多多交流,人脸识别,学习路上小插曲

2022-05-01

百度发文,pp-LCnet网络,pp-PicoDet算法,pp-shitu应用

组会汇报,学习讨论

2022-05-01

yolov2&deepid.pptx

人脸检测出发

2022-01-07

基于深度学习的图像语义分割分类(ISSbDL).xmind

基于深度学习的图像语义分割分类(ISSbDL).xmind

2021-12-21

deeplab系列,一种语义分割的选择.pptx

deeplab系列,一种语义分割的选择.pptx

2021-12-17

生成对抗网络与变种.pptx

生成对抗网络学习了解,分享

2021-12-12

分治法求众数.pptx

逐步讲解分治法求解众数。原为课程分享内容。

2021-12-03

卷积神经网络.pptx

对于卷积神经网络得概述与在计算机视觉的应用,学习分享,ppt制作

2021-09-29

自然语言处理,推荐系统答辩PPT.pptx

基于TF-IDF算法,结合simhash算法,中文分词等一些技术要点概述。应用了开源hanlp中文处理包

2021-09-11

白水空空-爬虫概论.pptx

可用于技术分析讲解,爬虫知识了解,使用效果和使用流程的预览。一些基本配置与使用均有分享和讨论,积极与博主沟通,完善相关文档

2021-09-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除