自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(65)
  • 收藏
  • 关注

原创 【Cypress】cy.screenshot()和 cy.compareSnapshot()的区别

应用场景: `cy.screenshot()` 适用于保存测试过程中的截图,`cy.compareSnapshot()` 则用于确保页面的视觉外观在不同测试运行之间保持一致。保存路径: 它生成并保存基准截图到 `cypress/snapshots` 目录中,在后续运行中,它会将新的截图与基准截图进行比较,如果有差异,则会生成差异截图。这是在 Cypress 中生成截图的基本方法。输出不同: `cy.screenshot()` 生成单独的截图文件,而 `cy.compareSnapshot()` 则是。

2024-08-20 22:03:40 188

原创 【Cypress】截图插件

如果测试运行中的截图和基准截图之间存在差异,测试会失败,并生成一个差异截图,显示出页面的不同部分。这个差异截图帮助你快速识别出页面中的视觉变化或错误。- 每次你运行测试时,Cypress 会将当前的页面渲染与这个基准截图进行比较,看看是否有任何视觉上的变化。- 这是你在项目中首次运行视觉回归测试时保存的截图,它代表了页面在最初设定的理想状态下的外观。- 这是你在每次运行视觉回归测试时,Cypress 捕获的当前页面的实际外观。- 基准截图通常保存在项目的某个特定目录中,以便在后续的测试中进行对比。

2024-08-20 21:59:59 193

原创 子组件数据回显

这样,子组件就可以访问并展示从父组件传递过来的数据了。是一个prop绑定,它将父组件的。

2024-08-14 23:05:26 300

原创 Vue传递值并提交

1. 封装好的子组件 (MyForm.vue2. 父组件 (App.vue。

2024-08-14 22:13:31 297

原创 Deep Learning-Based Multiclass Instance Segmentation for Dental Lesion Detection

为此,我们提出了一种用于根尖周疾病检测的轻量级Mask-RCNN模型。该模型分为两部分构建:轻量级的改进MobileNet-v2骨干网和基于区域的网络(RPN),用于小数据集的根尖周疾病定位。为了测量所提出模型的有效性,轻量级的Mask-RCNN在包含五种不同类型根尖周围病变图像的自定义注释数据集上进行评估。结果表明,该模型可以检测和定位根尖周围病变,总体精度为94%,平均平均精度为85%,平均感染率为71.0%。

2024-08-03 15:56:20 416

原创 Dental enumeration and multiple treatment detection on panoramic X-rays using deep learning

本文开发了一种新的强大的深度学习框架,称为DENTECT,用于即时检测五种不同的牙科治疗方法,并根据全景x射线图像上的FDI符号同时对牙列进行编号。这使得DENTECT成为第一个专注于识别多种牙科治疗的系统;即根尖周围病变治疗、填充物、根管治疗(RCT)、手术拔牙、常规拔牙均准确定位在相应的边界和牙数内。虽然DENTECT只训练了1005张图像,但专家提供的注释在处理和枚举检测方面都提供了令人满意的结果。该框架以89.4%的平均精度(AP)评分进行枚举,并以59.0%的AP评分进行治疗识别。

2024-08-03 15:53:49 852

原创 Weakly supervised monocular 3d object detection using multi-view projection and direction consistenc

单目三维目标检测因其易于应用而成为自动驾驶领域的主流检测方法。一个突出的优点是在推理过程中不需要激光雷达点云。然而,目前大多数方法仍然依赖于3D点云数据来标记训练阶段使用的地面真相。这种训练和推理的不一致性使得大规模反馈数据难以利用,增加了数据收集的费用。为了弥补这一缺陷,我们提出了一种新的弱监督单眼三维目标检测方法,该方法可以只使用图像上标记的二维标签来训练模型。具体来说,我们在这个任务中探索了三种类型的一致性,即投影一致性、多视图一致性和方向一致性,并基于这些一致性设计了一个弱监督架构。

2024-07-27 12:17:07 347

原创 Object discovery from motion-guided tokens

这项工作引入了一种新颖的自动编码器架构 MoTok,用于无监督视频对象发现。通过利用运动引导标记化,该模型增强了 Transformer 架构中注意力机制的核心矢量量化过程。我们的方法允许出现可解释的中级特征,从而简化对象发现任务。对合成数据集和真实世界数据集的综合评估表明,如果解码器具有足够的容量,运动引导可以减轻对标签、光流或深度解码的需求,从而实现最先进的结果。所提出的方法有效地解决了对象背景模糊性的挑战,并提高了现实视频场景中的性能 [T4]、[T5]。

2024-07-27 12:09:13 770

原创 Detecting everything in the open world: Towards universal object detection

我们提出了UniDetector,一个通用的对象检测器,它有能力在开放世界中识别巨大的类别。UniDetector通用性的关键点是:1)通过图像和文本空间的对齐,利用多源图像和异构标签空间进行训练,保证了足够的信息用于通用表示。2)由于视觉和语言两种形态的丰富信息,它很容易泛化到开放世界,同时保持了可见和不可见类别之间的平衡。3)通过我们提出的解耦训练方式和概率校准,进一步提升了对新类别的泛化能力。

2024-07-20 20:49:08 904

原创 Enhanced training of query-based object detection via selective query recollection

本文研究了基于查询的目标检测器在最后解码阶段预测错误,而在中间阶段预测正确的现象。我们回顾了训练过程,并将这种被忽视的现象归因于两个限制:缺乏训练重点和解码序列的级联错误。我们设计并提出了一种简单有效的基于查询的目标检测器训练策略——选择性查询回忆(SQR)。随着解码阶段的深入,它会累积收集中间查询,并有选择地将查询转发到顺序结构以外的下游阶段。这样,SQR将训练重点放在后期阶段,并允许后期阶段直接处理来自早期阶段的中间查询。

2024-07-20 20:48:37 483

原创 YOLOv10: Real-Time End-to-End Object Detection

此外,作者遵循[21]将 Query 和键的维度设置为值维度的一半,并在MHSA中使用BatchNorm代替LayerNorm以便快速推理。通过这种方式,作者可以将全局表征学习能力以低计算成本融入到YOLOs中,这大大增强了模型的性能,并带来了性能的改进。此外,在一对一匹配中,作者采用顶部选择,其性能与匈牙利匹配[4]相同,但额外的训练时间更少。因此,作者为分类 Head 采用了简单的轻量级架构,该架构包括两个深度可分离卷积(核大小为3×3),后面跟着一个1×1卷积。在深层阶段的CIB中使用大核深度卷积。

2024-07-12 15:00:50 842

原创 Detrs beat yolos on real-time object detection

然而,我们观察到nnms对yolo的速度和准确性产生了负面影响。最近,端到端基于变压器的检测器(DETRs)为消除NMS提供了一种替代方案。然而,高昂的计算成本限制了它们的实用性,阻碍了它们充分发挥排除NMS的优势。在本文中,我们提出了实时检测变压器(RT-DETR),这是我们所知的第一个解决上述困境的实时端到端对象检测器。我们在先进的DETR基础上分两步构建RT-DETR:首先我们专注于在提高速度的同时保持精度,其次是在提高精度的同时保持速度。

2024-07-12 14:46:26 538

原创 Face XY project

【代码】Face XY project。

2024-04-28 18:38:27 631

原创 YOLO系列小样本数据集进行数据增强

处理数据增强需要用到images和labels。我保存的labels是txt文件,但是。目标检测的类别,有几个就填几个,我只有一个类别,就写了“defect”,结束后得到xml形式的数据增强labels和数据增强的images。现在需要将数据增强的xml格式的文件转换为txt文件,使用。修改需要转换的xml文件名为“tooth”将txt转换为xml文件后,使用数据增强。中需要对xml文件进行处理,因此需要。将txt文件进行转换。将xml文件进行转换。

2024-04-12 15:10:15 663 5

原创 [NVIDIA]Accelerating Applications with CUDA C/C++笔记

在高层次上,执行配置允许程序员为内核启动指定**线程层次结构**,它定义了线程分组的数量(称为**块**),以及在每个块中执行的**线程数**。稍后将在实验室中详细探讨执行配置,但目前请注意,内核是使用包含“1”线程(第二个配置参数)的“1”线程块(第一个执行配置参数)启动的。此外,每个块都有一个索引,从 0 开始。CUDA 内核可以访问特殊变量,这些变量既可以识别执行内核的线程(在块内)的索引,也可以标识线程所在的块(在网格内)的索引。** 内核代码由内核启动时配置的每个线程块中的每个线程执行**。

2024-04-07 14:01:55 479 1

原创 目标检测系列模型发展历程

VOC-->COCO。

2024-03-27 19:52:25 670

原创 YOLOv5s处理二维牙齿数据集

640x640的图像。

2024-03-25 09:43:12 474

原创 目标检测的指标评估

$\text{召回率} = \frac{\text{真正例 (TP)}}{\text{真正例 (TP)} + \text{假负例 (FN)}}$$2. 召回率 (Recall): 表示在所有应该被检测到的目标中,模型正确检测到的目标所占的比例。3. F1 分数 (F1 Score): 精确度和召回率的调和平均值,是衡量模型准确性的一个重要指标,尤其在类别不平衡的情况下。不同的应用场景可能对精确度、召回率、IoU等指标的重视程度不同,因此选择合适的评价指标和阈值是评估目标检测模型性能的关键。

2024-03-23 13:41:48 1001

原创 YOLOv3: An Incremental Improvement

因此,Darknet-53的性能与最先进的分类器相当,但浮点运算更少,速度更快。Darknet-53比ResNet-101更好,速度快1:5倍。Darknet-53的性能与ResNet-152相似,速度是ResNet-152的2倍。新网络是YOLOv2、Darknet-19中使用的网络和那些新奇的残余网络之间的混合方法。我们的网络使用连续的3 × 3和1 × 1卷积层,但现在也有一些快捷连接,并且明显更大。这个新网络比Darknet19强大得多,但仍然比ResNet-101或ResNet-152更有效。

2024-03-10 14:50:55 384

原创 YoLo进化史《A COMPREHENSIVE REVIEW OF YOLO: FROM YOLOV1 TOYOLOV8 AND BEYOND》

40]。受GoogLeNet[41]和Network in Network[42]的启发,YOLO使用1 × 1卷积层来减少特征映射的数量,并保持相对较低的参数数量。作为激活层,表1描述了YOLOv1体系结构。作者还介绍了一个更轻的模型,称为Fast YOLO,由9个卷积层组成。

2024-03-10 13:12:50 2199

原创 【Transformer】Attention Is All You Need

主要的序列转导模型是基于复杂的循环或卷积神经网络,包括一个编码器和一个解码器。表现最好的模型还通过注意机制连接编码器和解码器。我们提出了一个新的简单的网络架构,变压器,完全基于注意力机制,完全摒弃递归和卷积。在两个机器翻译任务上的实验表明,这些模型在质量上更优越,同时更具并行性,并且需要更少的训练时间。我们的模型在WMT 2014英语-德语翻译任务上实现了28.4 BLEU,比现有的最佳结果(包括集合)提高了2个BLEU以上。

2024-01-30 17:49:11 947

原创 Multi-view Local Co-occurrence and Global Consistency Learning Improve Mammogram Classification ...

在分析筛查乳房x线照片时,放射科医生可以自然地处理每个乳房的两个同侧视图的信息,即颅-尾侧(CC)视图和中外侧-斜位(MLO)视图。这些多个相关图像提供了互补的诊断信息,可以提高放射科医生的分类准确性。不幸的是,大多数现有的深度学习系统都是用全局标记的图像进行训练的,缺乏从这些多个视图中联合分析和整合全局和局部信息的能力。通过忽略在一个放映集的多个图像中存在的潜在有价值的信息,人们限制了这些系统的潜在准确性。

2024-01-26 22:30:57 878

原创 【多模态(影像)自监督学习】UniMiSS: Universal Medical Self-Supervised Learning via Breaking Dimensionality Barrie

自监督学习(SSL)为医学图像分析提供了巨大的机会,众所周知,医学图像分析缺乏注释。然而,由于高成像成本和隐私限制,聚合大量(未标记的)3D医学图像(如计算机断层扫描(CT))仍然具有挑战性。在本文中,我们提倡引入丰富的2D图像,如胸部x光片,以弥补缺乏3D数据,旨在建立一个,称为UniMiSS。接下来的问题是如何打破维度障碍,即使2D和3D图像都可以执行SSL?为了实现这一点,我们设计了一个金字塔形的u形医疗变压器(MiT)。它由可切换贴片嵌入(SPE)模块和变压器组成。

2024-01-26 16:57:05 1251

原创 【多模态(影像)自监督学习】Uni4Eye: Unified 2D and 3D Self-supervisedPre-training via Masked Image ModelingTran

大规模标记数据集是计算机视觉中监督深度学习成功的关键因素。然而,标注的数据数量有限是非常常见的,特别是在眼科图像分析中,因为手动标注是费时费力的。自监督学习(SSL)方法为更好地利用未标记数据带来了巨大的机会,因为它们不需要大量的注释。为了尽可能多地使用未标记的眼科图像,有必要打破尺寸障碍,同时使用2D和3D图像。在本文中,我们提出了一个通用的自监督Transformer框架,名为Uni4Eye,用于发现眼科图像的固有属性并捕获嵌入的特定领域特征。

2024-01-26 16:21:20 1076

原创 TumorCP: A Simple but Effective Object-LevelData Augmentation for Tumor Segmentation

众所周知,深度学习模型需要大量数据。因此,在医学图像分析中,迫切需要数据高效的技术,因为收集有良好注释的数据既昂贵又耗时。受最近复兴的“复制-粘贴”增强方法的启发,我们提出了一种简单而有效的针对肿瘤分割的对象级数据增强方法TumorCP。TumorCP是在线和随机的,为肿瘤的主体、位置、外观和形态提供了无限的增强可能性。在肾肿瘤分割任务上的实验表明,在肿瘤Dice上,TumorCP比强基线高出7.12%。此外,加上图像级数据增强,它在肿瘤骰子上比目前最先进的技术高出2.32%。

2024-01-22 20:09:01 753

原创 U-Mamba: Enhancing Long-range Dependency for Biomedical Image Segmentation

卷积神经网络(Convolutional Neural Networks, cnn)和transformer是生物医学图像分割中最流行的架构,但由于固有的局部性或计算复杂性,它们处理远程依赖关系的能力有限。为了解决这一挑战,我们引入了U-Mamba,一个通用的生物医学图像分割网络。受状态空间序列模型(ssm)的启发,我们设计了一个混合CNN-SSM块,它将卷积层的局部特征提取能力与ssm捕获远程依赖的能力相结合。状态空间序列模型是一种以处理长序列的强大能力而闻名的新型深度序列模型。

2024-01-22 18:59:12 3943

原创 以<SegVol>为模板研究一篇论文的写作模式及方法内容

体积图像分割的意义(做这个事情的意义)。目前针对这个事情/方向的局限性,所以提出了自己的创新点,简单描述这个模型,并给出分割结果。如果有比目前主流模型高的多的得分,可以在这个写上。最后给出github地址。

2024-01-20 18:56:49 901

原创 SegVol: Universal and Interactive Volumetric Medical Image Segmentation

精确的图像分割为临床研究提供了有意义且结构良好的信息。尽管在医学图像分割方面取得了显著的进展,但仍然缺乏一种能够分割广泛解剖类别且易于用户交互的基础分割模型。本文提出了一种通用的交互式体医学图像分割模型——SegVol。通过对90k个未标记的CT卷和6k个标记的CT卷进行训练,该基础模型支持使用语义和空间提示对200多个解剖类别进行分割。大量的实验证明,SegVol在多个细分基准测试中表现出色。在三个具有挑战性的病变数据集上,该方法比nnU-Net的Dice得分高20%左右。

2024-01-16 20:34:15 965

原创 Loss function的比较

1、MSE(先码)

2024-01-12 10:25:47 375

原创 基于多媒体的深度学习 Midreport自我总结分析

1、调整模型架构:增加模型的复杂性,例如增加卷积层或全连接层的数量,增加神经元数量等。4、增加训练时长:增加eopchs的值。需要将误差降低到1%以下。

2024-01-12 10:24:32 432

原创 ResNet网络架构

先码,明天更。

2024-01-11 22:16:19 458

原创 PyTorch自学&遇到的一些错误

数据需要时transforms类型,所以得到Compose([transforms参数1,transforms参数2,…help():说明书---->help(torch.cuda.is_available)dir():打开操作,能看到里面有什么东西---->dir(torch)图像变换,transform的使用。Scalar_value:y轴。图片--->工具 --->结果。Tensorboard的使用。Global_step:x轴。常见的Transforms。DataLoader的使用。

2024-01-11 14:43:56 2123 1

原创 语义分割中的采样

FULL卷积:放大图像的作用,放大后的结果中,通过补零的操作,原图像边缘效果会很差。A: 每层特征提取都能得到一个轮廓,高纬度的特征,提高卷积核的覆盖。下采样 丢弃全连接层,通过卷积的方式得到特征点热图。上采样 预测图像为灰度图像,不同灰度代表不同的语义。一、下采样:由输入图片得到特征点热图。二、上采样:由特征点热图得到预测图。新方法:像素点周围补零实现反卷积。经典:FCN、U-Net。常用:双线性插值、反卷积。SAME卷积:(待填写)为什么要进行下采样?

2024-01-11 14:42:28 409

原创 ReLU激活函数

3、ReLU会使一部分神经元的输出为0,造成网络的稀疏性,并减少了参数的相互依存关系,缓解了过拟合问题的发生。线性激活函数的输入输出都是线性组合,与没有隐藏层效果相当。如何把“激活的神经元的特征”通过函数把特征保留并映射出来,即负责将神经元的输入映射到输出端。1、没有饱和区,不存在梯度消失问题,防止梯度弥散。2、部分神经元会被激活,网络稀疏,计算有效率。3、没有复杂的指数运算,计算简单,效率提高。二、为什么使用非线性的激活函数?3、ReLU函数的导数计算更快。1、不会产生梯度弥散现象。一、什么是激活函数?

2024-01-11 14:41:33 443

原创 LeNet-5(用于手写体字符识别)

Output层也是全连接层,共有10个节点,分别代表数字0到9,且如果节点i的值为0,则网络识别的结果是数字i。可训练参数:(5*5+1) * 6(每个滤波器5*5=25个unit参数和一个bias参数,一共6个滤波器)输出featuremap大小:28*28 (32-5+1)=28。可训练参数/连接:120*(16*5*5+1)=48120。连接数:(5*5+1)*6*28*28=122304。输出featureMap大小:1*1(5-5+1)连接数:16*(2*2+1)*5*5=2000。

2024-01-11 13:25:10 1068

原创 【kaggle】数据可视化

先码。

2024-01-03 20:41:35 416

原创 Timm(Pytorch Image Models)

Timm库不仅提供了模型的权重,还提供了分布式训练和评估的代码框架,方便后人开发。它还在不断地更新迭代新的训练方法,新的视觉模型和优化代码。旨在将各种 SOTA 模型整合在一起,并具有复现 ImageNet 训练结果的能力,可进行迁移学习。

2024-01-03 20:20:04 403

原创 ResNet

并不是层数越多,训练效果就越好。层数越多,计算量过大,超出承受程度。ResNet模块中增加了快捷连接分支,平衡线性转换和非线性转换。

2024-01-03 20:10:34 353

原创 【nnUNet系列】MedNeXt

MedNeXt是ConvNeXT的改进版,是大卷积核分割网络,作者设计了一种带残差的。上采样和下采样块,以保持跨尺度的语义丰富性,对小卷积核网络进行上采样来迭代增加。该网络各有 4 个对称编码器和解码器层,中间嵌入一个瓶颈层。大小,以防止有限医疗数据的性能饱和。

2024-01-03 19:31:19 670

原创 nnU-Net

2、动态修改的网络结构:根据输入图像的大小和其他属性,nnU-Net的网络结构可以动态调整,例如卷积层的数量和滤波器的数量。1、自适应预处理和后处理:nnU-Net引入了自动确定输入数据的正规化策略、自动确定输出数据的阈值等策略。3、多模态和3D数据处理:nnU-Net能够处理不同模态的医学图像数据,并对3D数据进行有效分割。4、集成学习:nnU-Net使用了多个模型的集成来进一步提高性能。

2024-01-03 18:14:09 400

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除