论文阅读
文章平均质量分 86
记录自己看论文的过程与重要知识点
开始学AI
硕士生,研究方向无人机遥感图像处理,红外图像处理。不定时记录自己的学习日常,开源相关资料。关注一起学习吧!
展开
-
[探地雷达]预处理
由于在探测过程中存在热漂移、电子元器件的不稳定、电缆长度的不同以及天线距 地表的空隙间距的变化,这都会导致最初到达的地表回波在时间轴上产生“偏移”。这 将会影响该记录剖面图中地表的位置,影响到后续散射信号对应的时序,所以在正式处 理前,需要对多道数据进行起始时间的校正,统一调整使其与地表位置相匹配,以获得 一个统一的时间零点。因此,在数据接收处理阶段, 需要对波形进行校正,确保每道数据的 A-scan 值的平均值接近于零。接下来,将该道的每个数据点减去 其均值,从而得到去除直流分量后的数据。原创 2023-07-10 09:54:06 · 1980 阅读 · 3 评论 -
[探地雷达]利用Faster RCNN对B-SCAN探地雷达数据进行目标检测
由于真实雷达图像较少,作者采用了GPR工具箱,使用不同配置,合成了部分模拟雷达图。然后采用Cifar-10数据(灰度图)对Faster RCNN进行预训练,再采用真实和合成数据进行微调。论文地址。原创 2023-07-03 10:15:03 · 2380 阅读 · 5 评论 -
Learn to Augment: Joint Data Augmentation and Network Optimizationfor Text Recognition
Abstractwe propose a new method for text image augmentation. Different from traditional augmentation methods such as rotation, scaling and perspective transformation, our proposed augmentation method is designed to learn proper and effificient data augme原创 2022-05-26 15:07:56 · 309 阅读 · 0 评论 -
Mask TextSpotter v3
摘要近年来,集检测和识别为一体的端到端可训练场景文本检测方法取得了很大进展。然而,目前的任意形状场景文本观察器大多使用区域提案网络(RPN)来生成提案。RPN在很大程度上依赖于手动设计的锚,其提案用轴对齐的矩形表示。前者在处理具有极端纵横比或不规则形状的文本实例方面存在困难,而后者通常在密集定向文本的情况下将多个相邻实例包括在单个建议中。为了解决这些问题,我们提出了MASK TextSpotter v3,一个端到端的可训练场景文本检测器,它采用了分割建议网络(SPN)而不是RPN。我们的SPN是无锚点的原创 2022-05-23 09:27:41 · 1077 阅读 · 0 评论 -
文字识别之检测部分
随着深度学习的兴起和发展,计算机视觉发生了巨大的变革和重塑。作为计算机视觉的一个重要研究领域,场景文本检测与识别不可避免地受到了这一革命浪潮的影响,从而进入了深度学习时代。这项调查旨在总结和分析深度学习时代场景文本检测和识别的主要变化和重大进展。通过本文,我们致力于:(1)介绍新的见解和想法;(2)突出最近的技术和基准;(3)展望未来的趋势。原创 2022-05-16 16:05:04 · 775 阅读 · 1 评论 -
MobileVit代码解析
MobileVit代码逐行解析代码链接:非官方实现1.1导入所需模块from torch import nnimport torchfrom torch.nn.modules import convfrom torch.nn.modules.conv import Conv2dfrom einops import rearrange以下为MobileVit结构和函数入口其中 self.conv1=conv_bn(3,channels[0],kernel原创 2022-04-27 13:54:15 · 3191 阅读 · 8 评论 -
MOBILEVIT: LIGHT-WEIGHT, GENERAL-PURPOSE, AND MOBILE-FRIENDLY VISION TRANSFORMER
轻量级卷积神经网络(CNN)是实现移动视觉任务的基础。他们的空间归纳偏向使他们能够在不同的视觉任务中以更少的参数学习表征。然而,这些网络在空间上是局部的。为了学习全局表征,采用了基于自我注意的视觉转换器(VITS)。与CNN不同,VITS是重量级的。在本文中,我们提出了以下问题:是否有可能将CNNS和VITS的优势结合起来,为移动视觉任务构建一个轻量级、低延迟的网络?为此,我们推出了MobileViT,这是一款适用于移动设备的轻量级通用视觉转换器。原创 2022-04-27 13:29:12 · 840 阅读 · 0 评论 -
高分遥感语义分割论文阅读之一
目录Incorporating DeepLabv3+ and object-based image analysis for semantic segmentation of very high resolution remote sensing imagessummary 总结Research Objective 作者的研究目的Problem Statement 问题陈述,要解决的问题Method(s) 解决问题采用的方法Evaluation 作者如何评估自己的方法,有没有问题或者可以借鉴的地方。Conc原创 2021-05-27 22:11:09 · 1515 阅读 · 3 评论 -
图像和视频语义分割的深度学习技术综述
原文链接:https://www.sciencedirect.com/science/article/abs/pii/S15684946183028131 引言语义分割应用于静止的二维图像、视频,甚至3D或体积数据,是计算机视觉领域的关键问题之一。本文提供了一个广泛的现有数据集的调查,可能是有用的分割项目与深度学习技术。 对使用深度学习进行语义分割的最重要的方法、它们的起源和它们的贡献进行了深入和有组织的回顾。 全面的性能评估,它收集定量的指标,如准确性、执行时间和内存占用。.原创 2021-03-30 20:15:21 · 1303 阅读 · 0 评论 -
DeepHuman:从单一图像中3D人体重建
摘要:我们提出DeepHuman,一种图像引导的体到体转换CNN,用于从单一的RGB图像进行3D人体重建。为了减少与表面几何重建相关的模糊性,甚至对于不可见区域的重建,我们提出并利用从SMPL模型生成的密集语义表示作为额外的输入。我们的网络的一个关键特征是通过体积特征变换将不同尺度的图像特征融合到三维空间中,这有助于恢复精确的表面几何。可见表面细节通过常规精细网络进一步细化,该网络可以使用我们提出的体积法向投影层与体积生成网络连接。我们还提供了一个包含约7000个模型的三维真实人类模型数据集——THuman翻译 2021-01-11 22:29:52 · 3686 阅读 · 0 评论 -
基于深度学习的单幅图像三维物体重建综述
摘要:从单幅图像中重建三维目标是计算机视觉领域的一个重要课题。近年来,利用深度学习技术对单幅图像进行三维重建取得了显著的成果。传统的从单幅图像重建三维物体的方法需要先验知识和假设,而且重建的物体被限制在一定的范畴内或很难从一幅真实的图像中完成良好的重建。虽然深度学习凭借自身强大的学习能力可以很好地解决这些问题,但它也面临着很多问题。在本文中,我们首先讨论了应用深度学习方法从单一图像重建三维对象所面临的挑战。其次,我们全面回顾了用于单个图像三维重建的编码器、解码器和训练细节。然后,介绍了近年来单幅图像三维目标翻译 2021-01-08 15:02:02 · 8714 阅读 · 3 评论 -
YOLOv4论文阅读
YOLOv4: Optimal Speed and Accuracy of Object Detection摘要据说有许多功能可以提高卷积神经网络(CNN)的准确性。需要在大数据集上对这些功能操作的组合进行实际测试,并对结果进行理论验证。某些操作可用于特定的模型,或仅用于小规模数据集;而一些操作,如batch-normalization和residual-connections,适用于大多数模型、任务和数据集。我们假设此类通用功能包括加权残差连接(WRC),跨阶段部分连接(CSP),交叉小批量归..翻译 2020-11-19 21:34:15 · 348 阅读 · 0 评论 -
Scaled-YOLOv4: Scaling Cross Stage Partial Network
我们展示了基于CSP方法的YOLOv4对象检测神经网络,可以上下缩放,并且适用于小型和大型网络,同时保持最佳的速度和准确性。我们提出了一种网络缩放方法,该方法不仅可以修改深度,宽度,分辨率,还可以修改网络的结构。OLOv4-large模型达到了最先进的结果:在Tesla V100上以15 FPS的速度,MS COCO数据集的AP为55.4%(AP50为73.3%),而随着测试时间的增加,YOLOv4-large的模型达到55.8% AP(73.2 AP50)。据我们所知,这是目前所有已发表作品中COCO数据翻译 2020-11-23 20:32:40 · 1092 阅读 · 0 评论