读论文
文章平均质量分 91
请站在我身后
这个作者很懒,什么都没留下…
展开
-
Mini-Omni:语言模型可以在流中听、说和思考
读论文《Mini-Omni: Language Models Can Hear, Talk While Thinking in Streaming》目前比较火的一篇论文,分享给大家。原创 2024-09-12 15:09:17 · 1160 阅读 · 0 评论 -
读论文《Sapiens: Foundation for Human Vision Models》
Sapiens 是由 Rawal Khirodkar 等人开发的一系列模型,旨在处理四个关键的以人为中心的视觉任务:2D 姿态估计、身体部位分割、深度预测和表面法线预测。这些任务对于理解图像中的人体和生成逼真的3D 人类模型至关重要。Sapiens 模型通过在大规模的野外人类图像数据集上进行自监督预训练,然后针对特定任务进行微调,以实现高性能。Sapiens 模型针对四项人工任务进行了微调 - 2D 姿势估计、身体部位分割、深度预测和法线预测。我们的模型适用于各种野外面部、上半身、全身和多人图像。原创 2024-09-11 17:48:16 · 743 阅读 · 0 评论 -
自称超越Transformer的新一代大模型RWKV是什么
自 Vaswani 等人于 2017 年首次提出 Attention Is All You Need 之后,基于 transformer 的强大的模型一直在不断地涌现,它们在 NLP 相关任务上的表现远远超过基于 RNN (Recurrent Neural Networks, 递归神经网络) 的 SoTA 模型,甚至多数认为 RNN 已死。而本文将介绍一个集 RNN 和 transformer 两者的优势于一身的全新网络架构 –RWKV!原创 2024-09-06 17:28:05 · 733 阅读 · 0 评论 -
愿遗忘与你同在:使用 Noisy Labels 学习的替代重播
作者们指出,在现实世界的应用中,由于时间限制或数据自动收集等原因,标签噪声是一个常见问题,这使得现有的基于重放(Replay)的持续学习策略容易受到影响。: 提出了一种新的持续学习优化方案,通过交替进行缓冲区学习(buffer learning)和缓冲区遗忘(buffer forgetting)的步骤,来鼓励在缓冲区中分离干净样本和噪声样本。: 提出了一种新的样本选择策略,旨在优先选择当前任务的纯净样本,同时保留过去的相关样本。与现有的基于损失的净化策略相比,平均准确度提高了4.71%。原创 2024-08-27 17:29:01 · 919 阅读 · 0 评论 -
读论文《SHOW-O》8.22发布的贼强的大模型多模态理解和生成解决方案
Show-o,它统一了多模态理解和生成。与完全自回归模型不同,Show-o 统一了自回归和(离散)扩散建模,以自适应地处理各种混合模态的输入和输出。统一模型灵活地支持广泛的视觉语言任务,包括视觉问答、文本到图像生成、文本引导修复/外推和混合模态生成。在各种基准测试中,它展示了与现有单个模型相当或更好的性能,这些模型具有等效或更多为理解或生成而定制的参数。这显著凸显了其作为下一代基础模型的潜力。听着很厉害,不同模态完全混合。原创 2024-08-27 15:40:24 · 975 阅读 · 0 评论 -
读论文《Behavior Pattern Mining-based Multi-Behavior Recommendation》
BPMR算法通过挖掘用户和项目之间的多样化交互模式,并将这些模式作为特征用于推荐。采用贝叶斯方法简化推荐过程,有效避免了图神经网络算法中的过平滑问题。实验评估表明,BPMR在三个真实世界数据集上显著优于现有的最先进算法。原创 2024-08-23 17:57:13 · 966 阅读 · 0 评论 -
读论文《Enhancing Cross-Modal Medical Image Segmentation through Compositionality》
跨模态医学图像分割是一个挑战,因为不同的成像方式会产生分辨率、对比度和解剖结构的不同表现。本文介绍了一种新的跨模态分割网络,该网络通过使用可学习的 von Mises-Fisher 核来强化学习到的表示的组合性。这些核有助于内容-风格解耦,得到的组合性内容表示在本质上是可解释的,并且有效地分离了不同的解剖结构。实验结果表明,在多个医学数据集上,与现有方法相比,所提出的方法在分割性能上有所提高,并且降低了计算成本。原创 2024-08-22 17:51:01 · 795 阅读 · 0 评论 -
读论文《FedGS: Federated Gradient Scaling for Heterogeneous Medical Image Segmentation》
深度学习 (DL) 中的联邦学习 (FL) 自动化医学图像分割功能可在不共享患者数据的情况下启用协作式模型训练,从而帮助保护隐私。然而,联邦学习面临着机构间数据异质性的挑战,导致全球模型次优。在联邦学习中集成分离表示学习 (DRL) 可以通过将数据分离为不同的表示来增强鲁棒性。现有的 DRL 方法假设异质性仅存在于风格特征中,而忽略了基于内容的变异性,如病变大小和形状。我们提出了 FedGS,一种新型的 FL 聚合方法,旨在提高对小型、代表性不足的目标的分割性能,同时保持整体功效。原创 2024-08-22 17:43:16 · 765 阅读 · 0 评论 -
读论文《 The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery》
人工智能科学家首先发明并评估一组想法的新颖性。这种方法标志着在机器学习科学发现方面的一个新时代的开始:将 AI 代理的变革性好处带给 AI 自身的整个研究过程,并使我们更接近一个世界,在这个世界上,无尽的可负担的创造力和创新可以被释放到世界上最具挑战性的问题上。这个审查代理处理 PDF 手稿的原始文本,并提供包括声音、呈现、贡献、总体和信心的数值分数,以及弱点和优势的列表,以及初步的二元决策(接受或拒绝)。每个阶段都使用了特定的提示和过程,以确保生成的想法是新颖的,实验是有效的,并且论文是准确和全面的。原创 2024-08-21 17:33:04 · 1267 阅读 · 0 评论 -
读论文《Temporal Graph Networks for Deep Learning on Dynamic Graphs》
作者提出了一种名为Temporal Graph Networks(TGNs)的新型深度学习框架,专门用于处理动态图数据。动态图是指图的结构或特征随时间变化的图,例如社交网络或生物互作网络。原创 2024-08-21 17:08:53 · 1012 阅读 · 0 评论 -
读论文《Contrastive Diffusion Model with Auxiliary Guidance for Coarse-to-Fine PET Reconstruction》
该论文提出了一种基于对比扩散模型(Contrastive Diffusion Model)并结合辅助引导(Auxiliary Guidance)的粗到细(Coarse-to-Fine)PET重建框架。这种框架包括一个粗预测模块(Coarse Prediction Module, CPM)和一个迭代细化模块(Iterative Refinement Module, IRM)。CPM通过确定性过程生成粗PET图像,而IRM则迭代地采样残差。通过将大部分计算开销委托给CPM,显著提高了整体采样速度。原创 2024-08-16 16:43:42 · 870 阅读 · 0 评论 -
读论文《Diffusion Probabilistic Priors for Zero-Shot Low-Dose CT Image Denoising》
零样本低剂量CT图像去噪的扩散概率先验这篇论文主要研究了一种新的无监督方法,用于降低剂量计算机断层扫描(Low-Dose CT, LD-CT)图像的噪声。这种方法不需要成对的低剂量和正常剂量CT图像进行训练,而是仅使用正常剂量CT图像进行训练,以实现对低剂量CT图像的零样本去噪。原创 2024-08-15 15:38:16 · 799 阅读 · 0 评论 -
u2net 和u2netp 的具体区别
U2Net和U2NetP是两种基于深度学习的图像分割模型,它们都使用了编码器-解码器架构和跳跃连接来提高分割的精度。然而,它们在网络结构和参数配置上存在一些差异。这些差别反映了U2NetP是U2Net的一个轻量级版本,通过减少参数和简化网络结构来提高运行效率,可能以牺牲一些精度为代价。原创 2024-08-15 14:45:33 · 653 阅读 · 0 评论 -
读论文《ACN: Adversarial Co-training Network for Brain Tumor Segmentation with Missing Modalities》
论文题目;基于缺失模式的脑肿瘤分割的对抗性协同训练网络论文提出了一种新颖的对抗性协同训练网络(Adversarial Co-training Network, ACN),用于处理医学图像分割中缺失模态的问题。原创 2024-08-13 17:54:51 · 699 阅读 · 0 评论 -
读论文《PROTOTYPE KNOWLEDGE DISTILLATION FOR MEDICAL SEGMENTATION WITH MISSING MODALITY》
论文题目:缺失模态医学分割的原型知识蒸馏。原创 2024-08-13 17:46:33 · 956 阅读 · 0 评论 -
读论文:《CTformer: Convolution-free Token2Token Dilated Vision Transformer for Low-dose CT Denoising》
低剂量计算机断层扫描(LDCT)去噪是CT研究中的一个重要问题。与正常剂量CT(NDCT)图像相比,LDCT图像在临床应用中会受到严重的噪声和伪影的影响。最近的许多研究表明,视觉变换器在特征表示能力上优于卷积神经网络(CNN)。然而,与CNN不同,视觉变换器在LDCT去噪方面的潜力至今尚未得到充分探索。为了填补这一空白,我们提出了一种无需卷积的Token2Token扩张视觉变换器(CTformer)用于低剂量CT去噪。CTformer使用更强大的Token重排来包含局部上下文信息,从而避免使用卷积。原创 2024-08-12 11:52:37 · 948 阅读 · 0 评论 -
读论文《LIT-Former: Linking In-plane and Through-planeTransformers for Simultaneous CT ImageDenoising》
这篇论文研究了3D低剂量计算机断层扫描(CT)成像技术。尽管已经开发了多种深度学习方法,但它们通常专注于2D图像,并且分别对低剂量引起的噪声进行去噪和对超分辨率进行去模糊处理。到目前为止,很少有工作同时进行平面内去噪和平面外去模糊,这对于获得辐射更低、成像速度更快的高质量3D CT图像非常重要。对于这项任务,直接训练一个端到端的3D网络是一种直接的方法。然而,这需要更多的训练数据和昂贵的计算成本。原创 2024-08-09 17:53:24 · 612 阅读 · 0 评论 -
读论文《Variable Augmented Network for InvertibleModality Synthesis-Fusion》
可逆模态综合融合的变增广网络这篇论文提出了一种名为iVAN(invertible and variable augmented network)的方法,用于医学图像的合成和融合。原创 2024-07-29 11:21:47 · 1041 阅读 · 0 评论 -
读论文《Hi-Net: Hybrid-fusion Network for Multi-modalMR Image Synthesis》
磁共振成像(MRI)是一种广泛使用的神经成像技术,可以提供不同对比度(即模式)的图像。事实证明,融合这种多模态数据对于提高许多任务中的模型性能特别有效。然而,由于数据质量差和患者频繁退出,收集每个患者的所有模式仍然是一个挑战。医学图像合成是一种有效的解决方案,它从现有的图像中合成缺失的图像。在本文中,我们提出了一种用于多模态磁共振图像合成的新型混合融合网络(Hi-Net),它学习从多模态源图像(即现有模态)到目标图像(即缺失模态)的映射。原创 2024-07-23 11:53:32 · 862 阅读 · 1 评论 -
读论文《ResViT: Residual vision transformers for multi-modal medical image synthesis》
具有卷积神经网络(CNN)主干的生成对抗模型最近在许多医学图像合成任务中被建立为最先进的模型。然而,cnn被设计为使用紧凑过滤器执行局部处理,这种归纳偏差损害了上下文特征的学习。在这里,我们提出了一种新的医学图像合成生成对抗方法,即ResViT,它利用了视觉的上下文敏感性以及卷积算子的精度和对抗学习的真实感。ResViT的生成器采用了一个由新型聚合残差变压器(ART)模块组成的中心瓶颈,该模块协同结合了残差卷积和变压器模块。ART块中的残差连接促进捕获表示的多样性,而信道压缩模块提取任务相关信息。原创 2024-07-22 16:15:28 · 1087 阅读 · 0 评论 -
Multi-scale Transformer Network with Edge-aware Pre-training for Cross-Modality MRImage Synthesis 代码
Multi-scale Transformer Network with Edge-aware Pre-training for Cross-Modality MRImage Synthesis 代码复现和讲解。原创 2024-07-19 16:45:15 · 761 阅读 · 0 评论 -
读论文《Multi-scale Transformer Network with Edge-aware Pre-training for Cross-Modality MRImage Synthe》
论文题目:基于边缘感知的多尺度变压器网络跨模态图像合成。原创 2024-07-19 14:32:38 · 732 阅读 · 0 评论 -
读论文《Unsupervised Polychromatic Neural Representation for CT Metal Artifact Reduction》
论文提出了一种新颖的多色神经表示方法(Polyner),用于解决人体内部金属植入物引起的CT成像中的金属伪影问题。CT金属伪影源于金属对X射线光谱不同能量层的衰减系数的剧烈变化,导致CT测量中的非线性金属效应。传统的基于经验模型的金属伪影减少(MAR)方法会导致信号损失和重构混叠。Polyner从非线性逆问题的角度对MAR问题进行建模,首先推导出一个多色前向模型来准确模拟非线性CT采集过程,然后将其整合到隐式神经表示中以完成重建,并采用正则化项来保持CT图像在不同能量层的物理属性,同时有效约束解空间。原创 2024-07-12 17:14:04 · 1478 阅读 · 0 评论 -
《Unpaired Unsupervised CT Metal ArtifactReduction》代码讲解
论文讲解见上篇博客这篇论文的标题是《Unpaired Unsupervised CT Metal Artifact Reduction》,作者是Bo-Yuan Chen和Chu-Song Chen。这篇论文主要研究了如何使用深度学习技术来减少医学成像中由于金属植入物引起的CT图像伪影。项目给出了几个不同的unet网络的实验,以pytorch_Net.py举例。原创 2024-07-10 14:43:31 · 400 阅读 · 0 评论 -
读论文《Unpaired Unsupervised CT Metal ArtifactReduction》
论文题目:非配对无监督CT金属伪影还原重点应该就是怎么实现无监督吧先看论文,再看代码。原创 2024-07-10 14:22:51 · 1064 阅读 · 0 评论 -
DIF-Gaussian 代码讲解
这篇论文的标题是《Learning 3D Gaussians for Extremely Sparse-View Cone-Beam CT Reconstruction》,作者是Yiqun Lin, Hualiang Wang, Jixiang Chen和Xiaomeng Li,来自香港科技大学以及HKUST深圳-香港协同创新研究院。这篇论文主要探讨了一种新的锥束计算机断层扫描(CBCT)重建框架,称为DIF-Gaussian,旨在通过使用更少的投影来减少辐射剂量,同时提高重建图像的质量。原创 2024-07-09 14:57:15 · 793 阅读 · 0 评论 -
读论文《Learning 3D Gaussians for ExtremelySparse-View Cone-Beam CT Reconstruction》MICCAI 2024.
锥束计算机断层扫描(CBCT)是医学成像中不可或缺的技术,但其相关的辐射暴露在临床实践中引起关注。为了降低这些风险,稀疏视图重建已成为重要的研究方向。尽管已经引入了隐式神经表示进行稀疏视图CBCT重建,现有方法主要关注从稀疏投影中查询局部2D特征,这对于处理更复杂的解剖结构(如胸部)是不够的。为此,作者提出了一种新的重建框架DIF-Gaussian,利用3D高斯来表示3D空间中的特征分布,提供额外的3D空间信息以便于估计衰减系数。原创 2024-07-09 14:10:39 · 603 阅读 · 0 评论 -
OSCNET+ 代码复现
项目github 已有,开个博客大家如果复现有问题可以随时在下面留言。当然自己用肯定是自己写dataload,我就不放自己的代码了。1、从github 下载项目并解压。4、想直接测试也有提供权重。原创 2024-07-08 16:16:32 · 262 阅读 · 0 评论 -
读论文《OSCNet: Orientation-Shared ConvolutionalNetwork for CT Metal Artifact Learning》
背景部分简单的略过与我们的会议作品OSCNet[22]相比,本文在以下方面做了实质性的改进:1)在[22]中,工件的卷积表示是从整个训练数据集中学习的,并且是样本不变的。相比之下,在本文中,我们进一步设计了一种新的网络结构,称为OSCNet+,它可以动态地实现不同输入金属影响CT图像的卷积表示。因此,本文提出的OSCNet+具有更大的工件提取灵活性和更好的泛化性能;2)重新制定模型推导,统一两个框架,包括OSCNet和OSCNet+。这样可以让读者更好地理解我们的研究见解;原创 2024-07-08 16:12:02 · 884 阅读 · 0 评论 -
读论文《Adaptive Convolutional Dictionary Network for CT Metal Artifact Reduction》IJCAI2022
受深度神经网络巨大成功的启发,基于学习的方法在计算机断层扫描(CT)图像的金属伪影还原(MAR)方面取得了很好的效果。然而,大多数现有方法都不太强调建模和将特定MAR任务的内在先验知识嵌入到其网络设计中。针对这个问题,我们提出了一种自适应卷积字典网络(ACDNet),它利用了基于模型和基于学习的方法。具体来说,我们探索了金属伪影的先验结构,例如,非局部重复条纹图案,并将其编码为显式加权卷积字典模型。然后,精心设计了一种简单有效的算法来求解该模型。通过将所提出算法的每个迭代子步骤展开为网络模块,我们显式地。原创 2024-07-03 16:44:35 · 780 阅读 · 0 评论 -
《Rigid and Non-rigid Motion Artifacts Reduction in X-ray CT using Attention Module》代码 复现与简单讲解
论文请参考上篇博客任务:CBCT 运动伪影去除。原创 2024-06-27 11:01:19 · 383 阅读 · 0 评论 -
读论文《Rigid and non-rigid motion artifact reduction in X-ray CT using attention module》
论文题目:利用注意模块减少x射线CT的刚性和非刚性运动伪影CT 运动伪影去除摘要:运动伪影是影响计算机断层扫描(CT)图像诊断性能的主要因素。特别是,当成像系统需要较长的扫描时间时,例如牙科CT或锥束CT (CBCT)应用中,患者会产生刚性和非刚性运动,运动伪影变得相当严重。为了解决这个问题,我们提出了一种新的实时运动伪影减少技术,该技术利用带有注意力模块的深度残差网络。我们的注意力模块是根据残差特征的重要性,通过放大或衰减残差特征来增加模型容量的。原创 2024-06-26 17:03:13 · 774 阅读 · 0 评论 -
读论文《A GRADIENT-BASED APPROACH TO FAST AND ACCURATE HEAD MOTION COMPENSATION IN CONE-BEAM CT》
题目:基于梯度的锥束ct头部运动快速精确补偿方法目的:CBCT运动伪影去除摘要:锥形束计算机断层扫描(CBCT)系统,由于其便携性,提供了一个有前途的直接点护理医学成像的途径,特别是在危急情况下,如急性中风评估。然而,将CBCT整合到临床工作流程中面临着挑战,主要与扫描时间长导致患者在扫描过程中运动和导致重建体积中的图像质量下降有关。本文介绍了一种基于梯度优化算法的CBCT运动估计新方法,该算法利用锥束CT几何形状的反投影算子的广义导数。原创 2024-06-24 14:08:03 · 521 阅读 · 0 评论 -
读论文《On the Influence of Smoothness Constraints in Computed Tomography Motion Compensation》
论文题目:平滑性约束对计算机断层扫描运动补偿的影响目的:CT运动伪影去除摘要:计算机断层扫描(CT)在图像采集过程中依赖于精确的患者固定。然而,重建图像中的运动伪影仍然存在。运动补偿方法旨在纠正采集后的这些伪影,通常在估计的运动模式上结合时间平滑约束。本文分析了基于样条的运动模型在现有的锥束CT刚性运动补偿算法中对可恢复运动频率的影响。结果表明,运动模型的选择对可恢复频率有重要影响。根据Nyquist-Shannon定理,基于优化的运动补偿算法能够精确地拟合频率几乎达到节点相关的理论极限的样条节点。原创 2024-06-24 11:51:48 · 754 阅读 · 0 评论 -
读论文“MARformer”——牙齿CBCT金属伪影去除
锥形束计算机断层扫描(CBCT)在牙科诊断和外科手术中发挥着关键作用。然而,金属牙种植体在CBCT成像过程中会带来烦人的金属伪影,干扰诊断和牙齿分割等下游处理。在本文中,我们开发了一种有效的变压器,用于从牙科CBCT图像中执行金属伪影还原(MAR)。基于CBCT图像具有全局相似性的特点,提出了一种新的降维自注意(DRSA)模块,降低了多头自注意的计算复杂度。提出了一种基于斑块感知前馈网络(P2FFN)的局部图像信息感知方法。实验结果表明,该方法具有较好的有效性,优于现有的修复方法和两种修复变压器。原创 2024-06-17 17:40:18 · 794 阅读 · 0 评论 -
QS-Attn 论文和代码运行讲解——图像风格迁移
非配对图像到图像(I2I)翻译通常需要最大化跨不同域的源图像和翻译图像之间的互信息,这对于生成器保留源内容并防止其进行不必要的修改至关重要。自监督对比学习已经在I2I中得到成功的应用。通过约束来自相同位置的特征比来自不同位置的特征更接近,它隐含地确保了结果从源获取内容。然而,以往的工作使用随机位置的特征来施加约束,由于某些位置包含的源域信息较少,可能不合适。而且,特征本身并不能反映与他人的关系。本文通过有意选择有意义的锚点进行对比学习来解决这些问题。原创 2024-06-17 10:17:20 · 1000 阅读 · 0 评论 -
DGSR 论文与代码对照讲解
将用户序列建模和用户之间的动态交互信息统一到一个框架中。提出了一种新的动态图神经网络顺序推荐方法(DGSR),该方法通过动态图结构连接不同用户的顺序,设计了一个动态图注意力神经网络来实现不同用户及其序列在动态图中的信息传播和聚合。简单来讲,在t=目标-1的位置构建知识图谱,提取到子图后进行嵌入 ,利用网络提取到特征进行协同过滤,详细的将在下面根据论文讲解。原创 2024-06-13 22:41:42 · 1036 阅读 · 0 评论 -
CycleGAN image2image 代码讲解
CycleGAN,即循环生成对抗网络,出自发表于 ICCV17 的论文《Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks》,和它的兄长Pix2Pix(均为朱大神作品)一样,用于图像风格迁移任务。以前的GAN都是单向生成,CycleGAN为了突破Pix2Pix对数据集图片一一对应的限制,采用了双向循环生成的结构,因此得名CycleGAN。原创 2024-06-13 10:10:54 · 552 阅读 · 0 评论 -
DCLGAN网络 论文解读和代码对照讲解
一种基于对比学习(contrastive learning)和双学习设置(dual learning setting)的新方法,用于无监督的图像到图像翻译任务。这种方法被称为DCLGAN(Dual Contrastive Learning for Unsupervised Image-to-Image Translation)方法:对比学习;双GAN,任务:图像翻译,优势:非对称,对比学习来最大化输入和输出图像块之间的互信息,两个不同的编码器(encoders)来学习不同域的特征G:X->Y 任务。原创 2024-06-12 11:49:50 · 1158 阅读 · 0 评论 -
读论文《Towards Explainable Conversational Recommender Systems》因果推理
传统推荐系统中的解释可以帮助用户理解推荐的合理性,提高系统的效率、透明度和可信性。在会话环境中,需要生成多个语境化的解释,这对解释提出了进一步的挑战。为了更好地衡量会话推荐系统(CRS)中的可解释性,本文基于传统推荐系统的概念以及CRS的特点,原创 2023-07-04 19:23:38 · 232 阅读 · 0 评论