- 博客(123)
- 资源 (29)
- 收藏
- 关注
原创 增强自注意力机制CeAtt,增强局部细节!
摘要:本文提出GridFormer——一种基于网格结构的残差密集Transformer框架,用于恶劣天气条件下的图像恢复。针对传统方法对复杂天气条件处理效果有限的问题,GridFormer通过嵌入残差密集变压器块(RDTB)构建网格结构,有效整合多尺度上下文信息。关键创新包括:(1)紧凑增强自注意力机制,通过特征采样和局部增强提高效率;(2)三行七列的网格架构实现多分辨率信息共享;(3)值交换策略促进特征融合。实验表明,GridFormer能有效处理多种天气退化效应,显著提升图像质量和下游视觉任务性能。
2025-06-11 19:17:45
430
原创 频域分析和注意力机制
本文提出FSTA-SNN模型,通过频域分析和注意力机制优化脉冲神经网络性能。研究发现SNN浅层学习垂直特征、深层学习水平特征,且时间步增加对特征学习影响有限。针对此,模型包含基于DCT的空间注意力子模块(提取全频谱特征)和时间注意力子模块(调节幅度变化),有效降低脉冲发放率并提升准确率。实验表明,该模块在多个数据集上优于现有方法,为SNN优化提供了新思路。论文代码已开源。
2025-06-11 19:05:33
529
原创 小波变换+注意力机制
摘要:本文提出了一种基于单输入多输出(SIMO)架构的多尺度运动去模糊网络MLWNet,通过简化传统多尺度方法的复杂度并引入可学习离散小波变换(LWT)模块,有效提升了去模糊性能。网络采用编码-解码结构,结合小波融合块(WFB)和小波头块(WHB)实现多尺度语义融合,利用LWT模块挖掘频域信息并保留方向性特征。通过"完美重建"原则约束小波变换的学习,并设计多尺度自监督损失指导训练。实验表明,该方法在多个真实数据集上取得优越的去模糊效果,同时保持较高计算效率。
2025-06-10 20:52:17
850
原创 空间域加频率域的组合
我们介绍了DiffFNO,这是一种新颖的扩散框架,用于任意尺度的超分辨率任务,并通过加权傅里叶神经算子(WFNO)得到强化。WFNO中的模式重新平衡能够有效地捕捉关键频率分量,显著改善对高频图像细节的重建,而这些高频细节对于超分辨率任务至关重要。门控融合机制(GFM)将基于注意力的神经算子(AttnNO)提取的空间特征自适应地补充到WFNO的频谱特征中。这增强了网络捕捉全局结构和局部细节的能力。自适应时间步长(ATS)常微分方程求解器。
2025-06-07 02:25:06
845
原创 OMNI-DIMENSIONAL DYNAMIC CONVOLUTION(全维动态卷积)
(a) 空间维度上的位置注意力乘法操作(location-wise Multiplication),涉及到沿着卷积核的空间维度(卷积核的高度和宽度)进行乘法操作。这里,ODConv计算的位置维度注意力asi被应用于卷积核的每个空间位置上,这允许网络动态调整卷积核在处理不同空间位置的信息时的重要性。(d) 卷积核空间中核维度上的核注意力乘法操作,沿着卷积核维度进行的乘法操作。的一个维度(关于卷积核数量)赋予卷积核动态属性,但忽略了其他三个维度(关于每个卷积核的空间大小,输入通道数和输出通道数)。
2025-05-22 13:35:19
61
原创 Edge-oriented Convolution Block for Real-time Super Resolution on Mobile Devices
在训练阶段,ECB提取多个路径中的特征,包括正常的3×3卷积、通道扩展和压缩卷积,以及来自中间特征的一阶和二阶空间导数。具体来说,输入特征X 先经过一个 C×C×1×1的卷积层,然后对中间特征分别应用两个缩放的 Sobel 滤波器,提取梯度信息。其中,perm 表示张量的维度置换操作,用于交换张量的第 1 和第 2 个维度,因此 perm(Ke)的形状为 C×D×1×1;与 Sobel 处理方式类似,输入特征 X 首先经过一个 C×C×1×1的卷积,然后使用拉普拉斯滤波器提取二阶导数信息。
2025-05-22 13:30:34
172
原创 Score-CAM:卷积神经网络的评分加权视觉解释
本文提出了一种新的卷积神经网络可视化解释方法——Score-CAM,该方法通过前向传递得分获取激活图的权重,摆脱了对梯度的依赖,从而提供更直观和公平的决策解释。Score-CAM在识别和定位任务中表现出色,优于现有的Grad-CAM等基于梯度的方法,并通过了合理性检查,展示了其作为模型调试工具的有效性。该方法通过归一化操作增强了类别区分能力,为理解神经网络的决策过程提供了新的视角。
2025-05-15 00:48:49
663
原创 利用耦合有限元和神经网络计算的骨重塑模拟多尺度方法
本文旨在开发一种基于有限元分析(FEA)和神经网络(NN)计算的多尺度分层混合模型,通过将介观尺度(骨小梁网络层级)与宏观尺度(全骨层级)耦合,模拟骨重建过程。由于全骨模拟(包括骨小梁层级的3D重建)耗时巨大,本研究仅在宏观层面进行有限元计算,而通过训练的神经网络替代介观尺度所需的有限元代码,以快速预测骨小梁的形态与力学适应性。宏观尺度的骨力学属性根据介观尺度神经网络计算的形态与力学适应性结果进行更新。
2025-04-16 17:38:36
950
原创 (Physics-Informed Neural Networks)和DeepONet的区别
其主要特点是将物理系统的约束条件(如偏微分方程)融入到神经网络的训练过程中,使得网络不仅能学习数据中的模式,还能满足物理规律。在传统的神经网络训练中,网络的目标是通过数据来拟合目标函数,而在PINN中,网络不仅仅依赖数据,还会受到物理方程的约束。PINNs在训练过程中,不仅会根据数据进行调整,还会受到物理定律的约束,从而使得学习到的结果不仅能够拟合数据,还能够符合物理定律。这样,神经网络在学习过程中,会不断地调整自己的参数,直到它找到一个最好的答案,使得这个答案能够满足物理问题的数学方程和边界条件。
2025-04-15 02:02:41
220
原创 将有限元与深度神经运算符相结合,以快速多尺度建模力学问题
该研究提出了一种基于深度神经算子(DeepONet)的机器学习增强型多尺度建模框架,旨在解决传统多尺度方法中高保真细尺度模型计算成本过高的问题。通过将DeepONet作为细尺度动力学的高效代理模型,该方法在离线阶段利用精细离散模型(如分子动力学或SPH)生成的数据训练神经网络,学习潜在的微观物理规律;在线阶段则将训练好的DeepONet与粗尺度PDE求解器(如有限元法)动态耦合,实现跨尺度响应预测。
2025-04-15 01:57:58
247
原创 基于通用算子近似定理的DeepONet非线性算子学习方法
基于算子通用逼近定理,本研究提出深度算子网络(DeepONet),突破了传统神经网络仅逼近连续函数的局限,首次实现深度架构对任意非线性连续算子的高精度逼近。DeepONet创新性采用双通道架构:分支网络(Branch Net):通过深度神经网络编码输入函数空间(如L²空间、Sobolev空间)的离散采样数据,学习函数空间内在拓扑结构;主干网络(Trunk Net):构建输出函数定义域的隐式基函数,实现从输入到输出算子的非线性映射。
2025-04-15 01:56:16
302
原创 数据驱动的多尺度多物理模型,以推导增材制造的过程-结构-属性关系
增材制造(AM)因其在无需专用模具条件下即可调控材料成分、结构与性能的优势,成为复杂几何终端部件制造的关键技术。然而,AM过程中多物理场耦合机制(如熔池动力学、相变演变)难以通过实验直接观测,本研究提出基于工艺-结构-性能关系全链条建模的数值模拟框架,结合多尺度数据挖掘技术突破传统优化瓶颈:1)在工艺-结构阶段,通过高保真热-流-固耦合模型(误差<5%)解析激光功率、扫描策略对微观晶粒形貌的影响,建立工艺参数-微观结构映射数据库;2)
2025-04-15 01:40:01
405
原创 一种基于学习的多尺度方法及其在非弹性碰撞问题中的应用·
我们在工程应用中观察和利用的材料宏观特性,源于电子、原子、缺陷、域等多尺度物理机制间复杂的相互作用。多尺度建模旨在通过利用固有的层次化结构来理解这些相互作用——在更粗尺度上的行为会调控并平均化更细尺度的行为。这需要反复求解计算代价高昂的细尺度模型,且通常需预先知晓那些影响粗尺度的细尺度行为特征(如序参数、状态变量、描述符等)。我们在双尺度框架下应对这一挑战:首先通过离线计算学习细尺度行为,然后将学习到的行为直接应用于粗尺度计算。
2025-04-13 23:51:30
330
原创 深度学习与力学建模融合的骨力学性能研究
(2)骨的多层级结构:皮质骨(密质骨)是致密Haversian系统,孔隙率3%~5%,高刚度与强度(模量10~20 GPa,强度110~220 MPa),横观各向同性;(5)骨缺损重建领域的关键挑战:骨组织力学的复杂性(非均质性和各向异性),临床影像技术局限(分辨率不足和体内关联缺失),个体化治疗困境(植入物设计缺陷和疗效波动性)融合高分辨率micro-CT(微结构解析) 与 低分辨率临床CT(临床应用),从临床CT中提取骨密度分布、结构张量等关键微结构参数,突破临床影像分辨率限制。
2025-04-13 01:25:03
203
原创 Fortuneteller: A Focal Transformer for Boundary-Aware Prostate Segmentation Using CT Images
在子窗口池化步骤中,输入特征图x ∈ Rd×H''×W''被分割成大小为{sw, sw}的子窗口网格,然后通过一个简单的线性层fpl在空间上对子窗口进行池化。不同层级l的池化特征图提供了精细粒度和粗糙粒度的丰富信息,在获得所有层级l的池化特征图后,使用三个线性投影层fq、fk和fv来计算第一级的查询Q,以及所有级的键K和值V。对于第i个窗口内的查询Qi ∈ Rd×sw×sw,从包含查询所在窗口的周围区域中的Kl和Vl中提取sr× sr的键和值。边界感知轮廓,是通过考虑前列腺掩膜边界附近的像素来生成的。
2025-04-01 01:25:28
283
原创 EMCAD: Efficient Multi-scale Convolutional Attention Decoding for Medical Image Segmentation
接着,应用3×3深度卷积(DW C(·)),随后是批归一化(BN(·))和ReLU激活函数,以增强上采样后的特征图。EMCAD通过高效的多尺度卷积增强特征图,同时使用通道、空间和分组(大核)门控注意力机制来整合复杂的空间关系和局部注意力。多尺度卷积注意力模块(MSCAM)结合了通道注意力块(CAB)、空间注意力块(SAB)和高效多尺度卷积块(MSCB)来增强特征图,同时保持上下文关系。高效上卷积块(EUCB)被设计用于逐步上采样当前阶段的特征图,以匹配来自下一个跳跃连接的特征图的维度和分辨率。
2025-04-01 01:22:58
801
原创 MAGIC:重新思考医学图像分割的动态卷积设计
近年来,动态卷积在医学图像分割的CNN相关网络中展现出性能提升。其核心思想是根据输入相关的注意力函数,用多个卷积核的线性组合替换静态卷积核。然而,现有的动态卷积设计存在两个局限性:其一,卷积核通过在输入特征图上施加一维注意力函数进行加权,忽略了多维信息之间的协同作用,导致卷积核的计算并非最优;其二,线性核聚合效率低下,限制了模型学习更复杂模式的能力。在本文中,作者重新思考动态卷积设计以解决这些局限性,并提出了多维聚合动态卷积(MAGIC)。
2025-03-30 01:50:20
1095
原创 MSV-Mamba: 用于超声心动图分割的多尺度视觉Mamba网络
超声心动图图像分割在分析心脏功能和诊断心血管疾病中起着至关重要的作用。超声成像经常面临诸如高噪声水平、低时空分辨率以及解剖结构复杂性等挑战。这些因素显著阻碍了模型准确捕捉和分析心脏各区域的结构关系和动态模式的能力。Mamba作为一种新兴模型,是目前最前沿的方法之一,广泛应用于各种视觉和语言任务。它能够以线性复杂度高效捕捉全局信息,并弥补了卷积神经网络(CNN)和传统Transformer的不足。
2025-03-30 00:43:13
551
3
原创 EGA边缘引导注意力:有效保留高频边缘信息,提升分割精度,助力高效涨点
编码器:负责从输入图像中捕获和抽象特征。解码器:专注于提取显著特征,生成与输入图像分辨率匹配的解码图。边缘引导注意力模块(EGA):利用拉普拉斯算子增强边缘信息,确保在解码过程中保留高频细节。MEGANet通过结合编码器、解码器和EGA模块,能够在多个尺度上保留边缘信息,从而提高了息肉分割的精度。EGA模块的主要作用是通过拉普拉斯算子提取和保留高频边缘信息,增强模型对弱边界的检测能力。编码器特征:来自编码器的视觉特征。高频特征:通过拉普拉斯算子提取的边缘信息。解码器预测特征:来自更高层的解码器预测特征。
2025-03-26 00:53:24
498
原创 SLAB:具有简化线性注意力和渐进从参数化批量归一化
RepBN是用于加速Transformer模型推理的归一化方法,其核心思想是将BatchNorm与线性层合并,以减少推理时的计算开销:1. RepBN的定义:RepBN通过引入一个可学习的参数η,与BatchNorm的输出相结合,形成新的归一化公式。2. RepBN的优势:RepBN结合了BatchNorm在训练时的稳定性和线性层在推理时的高效性,从而在不牺牲模型性能的前提下,提高了Transformer模型的推理速度。图2放大:RepBN是BatchNorm的一种新的重参数化公式,用以进一步提高性能。
2025-03-17 17:51:43
101
原创 注意力机制+多尺度卷积
创新点:通过多尺度和门控机制改进大核注意力,能够在不同粒度水平上聚合全局和局部信息,避免潜在的阻塞伪影。结合经典多尺度机制和新兴的大核注意力,优化了模型的性能和计算效率。整合门控机制和空间注意力,去除不必要的线性层,聚合信息丰富的空间上下文。创新点:提出了AGGN模型,该模型在不依赖手动标记肿瘤掩码的情况下,依然能够实现优异的分级性能。设计了双域注意力机制,能够同时考虑通道和空间信息,突出MRI特征图中的关键模态和位置。多尺度卷积先提供丰富的特征信息,注意力机制再从中筛选出关键信息,这样结合起来,
2025-03-17 17:17:54
525
原创 LM-UNet: Whole-Body PET-CT LesionSegmentation with Dual-Modality-BasedAnnotations Driven by Latent
然而,PET-CT图像的自动病灶分割仍面临三大挑战:1)现有公共数据集的单模态标注限制(仅依赖PET或CT);2)难以区分病理性与生理性高代谢区域;3)CT结构信息利用不足。题目:LM-UNet: Whole-body PET-CT Lesion Segmentation with Dual-Modality-based Annotations Driven by Latent Mamba U-Net。LM-UNet: 全身 PET-CT 病变分割,基于双模态注释的潜在 Mamba U-Net 驱动。
2025-03-11 01:17:29
169
原创 YOLOv12涨点优化:Shape IoU,Focal-EIOU 更加关注边界框本身的形状和尺度
边界盒回归损失作为检测器定位分支的重要组成部分,在目标检测任务中起着重要的作用。现有的边界盒回归方法通常考虑GT盒与预测盒之间的几何关系,利用边界盒的相对位置和形状来计算损失。
2025-03-10 20:35:36
708
原创 【报错处理】NVIDIA GeForce RTX 3090 with CUDA capability sm_86 is not compatible with the current PyTorch
GeForce3090等高性能显卡配置pytorch时出现错误:错误是当前3090显卡与torch的版本不支持。30系列的显卡不支持CUDA11.0以下的版本解决办法就是更改torch版本。PyTorch版本和对应的CUDA版本的关系在上看。假设使用的是RTX 3090,项目依赖的PyTorch为1.7.1sm_8611.0-12.21.7.1取交集,得到适合的CUDA版本为CUDA-11.0通过安装正确版本的PyTorch库。
2024-11-13 14:25:16
1320
原创 F.pad函数、torch.chunk函数、torch.roll函数、torch.narrow函数
首先创建了一个4x6的张量,并分别沿着第一个维度(行)和第二个维度(列)将其分割成了多个块。沿着第一个维度分割时,我们得到了两个2x6的张量;沿着第二个维度分割时,我们得到了三个4x2的张量。原始的3x3张量被填充成了一个5x7的张量。左边和上边各填充了1个单位的0,右边和下边各填充了2个单位的0。这样,填充后的张量尺寸变大了,但原始数据仍然保留在中心位置。
2024-11-10 17:03:40
207
原创 UNeXt:基于MLP的快速医学图像分割网络
近年来,UNet及其最新扩展(如TransUNet)一直是医学图像分割领域的主流方法。然而,这些方法参数量大、计算复杂度高且使用速度慢,因此无法有效地应用于需要快速图像分割的点护理场景中。为此,我们提出了UNeXt,这是一个基于卷积多层感知器(MLP)的图像分割网络。我们有效地设计了UNeXt,包括一个早期的卷积阶段和一个潜在阶段的MLP阶段。我们提出了一种标记化的MLP块,其中我们高效地标记和投影卷积特征,并使用MLP来建模表示。
2024-11-04 11:30:29
41
原创 Optimizing Medical Image Segmentation with Advanced Decoder
U-Net因其简洁且灵活的架构设计在医学图像分割中得到了广泛应用。为应对医学任务在规模和复杂性方面的挑战,已提出了多种U-Net变体。特别是近年来,以Swin UNETR为代表的基于Vision Transformer(ViT)的方法受到了广泛关注。然而,这些改进通常仅聚焦于编码器,忽视了解码器在优化分割细节中的关键作用。这种设计上的不平衡限制了进一步提升分割性能的可能性。为解决这一问题,我们分析了各种解码器组件的作用,包括上采样方法、跳跃连接和特征提取模块,以及现有方法的不足。
2024-11-04 10:25:32
166
原创 DB-SAM:深入探索高质量的通用医疗图像分割
近期,分割任何事物模型(SAM)在各种下游分割任务中展现出了卓越的分割能力。然而,在通用医疗图像分割的背景下,由于自然图像与2D/3D医疗数据之间存在领域差异,直接应用SAM会导致显著的性能差异。在本研究中,我们提出了一种双分支适配的SAM框架,即DB-SAM,旨在有效弥合这一领域差异。我们的双分支适配SAM包含两个并行分支:一个ViT分支和一个卷积分支。ViT分支在每个冻结的注意力块之后融入了一个可学习的通道注意力块,用于捕捉特定领域的局部特征。
2024-11-03 04:16:21
137
原创 UNROLLED DIFFUSION-GUIDED DEEP IMAGE PRIOR FOR MEDICAL IMAGERECONSTRUCTION
深度学习(DL)方法已广泛应用于各种图像恢复问题,包括磁共振成像(MRI)和计算机断层扫描(CT)重建。除了监督模型外,最近还探索了其他方法,其中两个关键的新方案是:深度图像先验(DIP),这是一种无监督的扫描自适应方法,利用网络架构作为隐式正则化,但可能受到噪声过拟合的影响;以及扩散模型(DMs),其中预训练生成模型的采样过程被修改,以允许通过近似从测量条件分布中进行采样。本文提出将DIP和DMs结合用于MRI和CT重建,这一想法的动机源于两个方面:(i)DIP网络输入的影响;
2024-11-01 18:29:34
35
原创 DIP(Deep Image Prior,深度图像先验)和DMs(Diffusion Models,扩散模型)
DIP(Deep Image Prior,深度图像先验)和DMs(Diffusion Models,扩散模型)是计算机视觉和深度学习领域中的两种重要模型,它们各自具有独特的特点和优势。在DIP中,网络架构本身被用作隐式正则化,通过对网络输入的随机噪声进行优化,可以逐渐生成与输入图像相似的图像。由于它们是通过学习数据的分布来生成新样本的,因此可以生成与真实数据相似但又不完全相同的样本,这增加了生成样本的多样性和丰富性。DIP具有扫描自适应的特性,即它能够根据输入图像的特定特征进行自适应的学习和优化。
2024-11-01 15:22:32
1347
原创 Vision Transformer(vit)原理分析+实践测试+代码实践(Pytorch)
Vision Transformer(ViT)是一种基于Transformer架构的深度学习模型,用于图像识别和计算机视觉任务。与传统的卷积神经网络(CNN)不同,ViT直接将图像视为一个序列化的输入,并利用自注意力机制来处理图像中的像素关系。ViT通过将图像分成一系列的图块(patches),并将每个图块转换为向量表示作为输入序列。然后,这些向量将通过多层的Transformer编码器进行处理,其中包含了自注意力机制和前馈神经网络层。这样可以捕捉到图像中不同位置的上下文依赖关系。
2024-10-29 21:14:59
1151
原创 mamba的应用实例与一般性的实验结果[精简版本](5)
Mamba模型在推理时,可根据不同的输入数据(x)动态计算矩阵B、C和步长Δ(映射与随机参数共同决定Δ)的值,但用于这些计算的参数(即决定如何计算这些矩阵和步长的函数或映射)是固定不变的。Mamba针对这一情况进行了改进,在对B C矩阵进行计算时,加入了选择性机制,即在计算时引入一个额外的线性层,对输入的控制量和状态量进行选择,加强模型对不同输入形式的适应能力,算法流程如下图所示。Copy任务是SSM擅长的,因为它可以卷积化,卷积的权值共享性质,导致输出肯定不会有变化。
2024-10-29 20:22:50
678
原创 【深度学习基础】详解Pytorch搭建CNN卷积神经网络实现手写数字识别
数据集,其包含70000 个28×28 的手写数字的数据集,其中又分为60000 个训练样本与10000 个测试样本。
2024-10-24 14:48:51
652
原创 Anaconda和Pycharm超详细安装教程(2024版本+Win11)
打开下载的安装包,并按照安装向导的指示进行安装。可以选择安装专业版(Professional Edition)或者社区版(Community Edition)根据自己的需求进行选择。选择之前conda的安装地址,依次点击envs\(自定义的环境名称,示例是python38)\python.exe,点击确定即可将虚拟环境导入到pycharm里面了。在安装过程中,你可以选择默认的安装选项,也可以根据需要进行自定义设置。(这里选择安装路径,最好选择C盘以外的路径,路径中不要有中文,再次点击“Next”)
2024-10-23 23:28:29
3593
原创 颠覆Transformer的Mamba模型[精简版本](4)------Mamba
Mamba()是一种状态空间模型(SSM),建立在更现代的适用于深度学习的结构化SSM (简称S6)基础上,与经典架构RNN有相似之处。与先前的研究相比,Mamba主要有三点创新:(1)(2)(Hardware-aware Algorithm),该算法采用“并行扫描算法”而非“卷积”来进行模型的循环计算(使得不用CNN也能并行训练),但为了减少GPU内存层次结构中不同级别之间的IO访问,它没有具体化扩展状态。(3)
2024-10-22 21:08:03
1472
原创 颠覆Transformer的Mamba模型[精简版本](3)------S4中的HiPPO
发现HiPPO在低阶信号上work后,我们希望将它扩展到高阶信号上。阶数越高——与LLM越相似,工作的价值就越大,但是我们不能直接堆叠HiPPO算子,因为不断增加维度会引起维数爆炸解决方法如下图所示,通过蓝色state的线性组合得到最终的输出红色,至于是skip connection,是绕开state直接从input到输出的一个连接改用上文第一部分的表达,则如下图所示(state改由h 表达,input改由表达)最终把这两个方程统一放到一块,便是上文第一部分所述的这个图。
2024-10-18 21:16:15
1237
原创 颠覆Transformer的Mamba模型[精简版本](2)------SSM、S4
将 SSM 表示为卷积的一个主要好处是它可以像卷积神经网络CNN一样进行并行训练。然而,由于内核大小固定,它们的推理不如 RNN 那样快速,SSMs可以当做是RNN与CNN的结合,作为从输入信号到输出信号的参数化映射,即推理用RNN结构,训练用CNN结构。这类模型可以非常高效地计算为递归或卷积,在序列长度上具有线性或近线性缩放。
2024-10-18 18:26:13
909
原创 颠覆Transformer的Mamba模型[精简版本(1)]------Flash Attention
文章的介绍从HiPPO、SSM、S4起步,逐步推导到mamba。
2024-10-17 17:31:39
790
原创 Video-LLaMA论文解读和项目部署教程
Video-LLaMA基于BLIP-2和MiniGPT-4构建,主要由两个核心组件构成:(1) 视觉-语言(VL)分支和(2) 音频-语言(AL)分支。VL分支(视觉编码器:ViT-G/14 + BLIP-2 Q-Former)引入两层视频Q-Former及帧嵌入层,计算视频表示。在Webvid-2M视频字幕数据集上训练VL分支,以执行视频到文本生成任务。同时,添加来自LLaVA的约59.5万个图像标题对到预训练数据中,以增强静态视觉概念的理解。预训练后,我们使用来自MiniGPT-4。
2024-10-14 21:24:40
1104
2025年Mathorcup妈妈杯D题完整论文+代码结果+思路(全套资源+多家资源整合+必过)
2025-04-21
2025年Mathorcup妈妈杯ABCD题完整论文+代码结果+思路(全套资源+多家资源整合+必过)
2025-04-21
2025年Mathorcup妈妈杯A题完整论文+代码结果+思路(全套资源+多家资源整合+必过)
2025-04-21
2025年Mathorcup妈妈杯C题完整论文+代码结果+思路(全套资源+多家资源整合+必过)
2025-04-21
2025年Mathorcup妈妈杯B题完整论文+代码结果+思路(全套资源+多家资源整合+必过)
2025-04-21
2025年泰迪杯B题完整论文+代码结果+思路(全套资源+多家资源整合+必过)
2025-04-21
2025年华中杯C题完整论文+代码结果+思路(全套资源+多家资源整合+必过)
2025-04-21
2025年泰迪杯A题完整论文+代码结果+思路(全套资源+多家资源整合+必过)
2025-04-21
2025年泰迪杯C题完整论文+代码结果+思路(全套资源+多家资源整合+必过)
2025-04-21
神经网络模型结构图(Visio+PPT格式)个人搜集最全版本
2025-04-18
省份+地级市-绿色专利申请和授权数据(1990-2023年)
2025-04-08
三创赛国赛项目(新).7z
2025-03-26
三创商务大数据.zip
2025-03-26
Python 编程实践指南:从基础语法到游戏开发的应用与实验
2025-01-14
使用 C 语言与 EasyX 实现俄罗斯方块游戏的教学与实战教程
2025-01-14
Java编程基础之数制转换及其他简单应用:提高学生的编程实践能力和对面向对象编程的理解
2025-01-14
Python与Web技术实现新年烟花特效实验报告
2025-01-14
2025年第八届河北省研究生数学建模竞赛:C 题 完整论文+代码结果+思路(全套资源)
2025-06-08
2025 年第八届河北省研究生数学建模竞赛A 题 基于图论的复杂网络分析与可视化建模+完整论文+代码结果+思路(全套资源)
2025-06-06
2025年第八届河北省研究生数学建模竞赛:B 题 三相桥逆变器建模与控制器参数设计+完整论文+代码结果+思路(全套资源)
2025-06-06
2025年江西省数学建模A题完整论文+代码结果+思路(全套资源)2025 年江西研究生数学建模竞赛题A题电动汽车充电桩共享优化与电网安全协同模型完整思路 模型代码 结果 成品分享
2025-05-29
2025年五一杯A题完整论文+代码结果+思路(全套资源+多家资源整合)支路车流量推测问题
2025-05-09
2025年电工杯B题完整论文+代码结果+思路(全套资源)城市垃圾分类运输的路径优化与调度
2025-05-29
2025年电工杯A题完整论文+代码结果+思路(全套资源)光伏电站发电功率日前预测问题
2025-05-29
2025年江西省数学建模C题完整论文+代码结果+思路(全套资源)2025 年江西研究生数学建模竞赛题C题基于大雾背景视频学习的能见度回归建模完整思路 模型代码 结果 成品分享
2025-05-29
2025年江西省研究生数学建模B题完整论文+代码结果+思路(全套资源)工业机器人机械臂运动控制模型
2025-05-29
2025年江西省数学建模A题完整论文+代码结果+思路(全套资源)
2025-05-27
2025年中青杯A题完整论文+代码结果+思路(全套资源)
2025-05-26
2025年中青杯B题完整论文+代码结果+思路(全套资源)
2025-05-26
2025年长三角b题完整论文+代码结果+思路(全套资源+多家资源整合)
2025-05-21
2025年山东省数模g题完整论文+代码结果+思路(全套资源+多家资源整合)
2025-05-21
2025年深圳杯(东三省)B题完整论文+代码结果+思路(全套资源+多家资源整合)
2025-05-21
2025年数维杯C题完整论文+代码结果+思路(全套资源+多家资源整合)
2025-05-12
2025年数维杯A题完整论文+代码结果+思路(全套资源+多家资源整合)
2025-05-12
2025年数维杯B题完整论文+代码结果+思路(全套资源+多家资源整合)
2025-05-12
2025年五一杯C题完整论文+代码结果+思路(全套资源+多家资源整合)
2025-05-09
2025年五一杯B题完整论文+代码结果+思路(全套资源+多家资源整合)
2025-05-09
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人