- 博客(129)
- 收藏
- 关注
原创 An Image isWorth 32 Tokensfor Reconstruction and Generation 一个图像值32个Token用于重建和生成
生成模型的最新进展突出了图像标记化(image tokenization )在高效合成高分辨率图像中的关键作用。与直接处理像素相比,标记化将图像转换为潜在表示(latent representations),减少了计算需求,提高了生成过程的有效性和效率。先前的方法,如VQGAN,通常使用具有固定下采样因子的二维潜在网格(2D latent grids)。然而,这些二维标记化在管理图像中存在的固有冗余(inherent redundancies)方面面临挑战,其中相邻区域经常显示相似性。
2025-04-14 19:37:42
976
原创 人工智能的未来:探索大型概念模型的潜力
Meta引入了大型概念模型(Large Concept Models, lcm),代表了传统的基于令牌的框架的重大转变。lcm使用概念作为理解的基本单位,支持更复杂的语义推理和上下文感知决策。鉴于这一新兴技术的学术研究有限,我们的研究旨在通过收集、分析和综合现有的灰色文献来弥补知识差距,以提供对lcm的全面了解。具体来说,我们(i)识别和描述LCM与llm的区别特征,(ii)探索LCM在多个领域的潜在应用,(iii)提出未来的研究方向和实际策略,以推进LCM的发展和采用。
2025-03-21 15:04:44
737
原创 理解知识如何在大型Vision-Language Models 中演化
这项工作研究了多模态知识如何在lvlm中发展。使用early exit 和降维技术,我们设计了几种策略来跟踪模型中的知识,并在三个层次上探索这个主题:单个令牌概率、令牌概率分布和特征编码。基于两个关键节点,即关键层和突变层,我们首次深入了解了lvlm中的知识进化过程。此外,根据不同进化阶段的特点,我们还在模型压缩和幻觉消除等问题上探索了新的视角。
2025-03-10 20:47:11
992
2
原创 一种基于滑动层合并的高效深度修剪大模型的方法
我们提出了一种滑动层合并方法 sliding layer merging method,该方法根据预定义的相似度阈值从上到下动态地选择和融合连续层 consecutive layers,从而在保持模型性能的同时简化了模型结构。
2025-03-09 16:57:24
812
原创 模型压缩梳理
最近在复现模型压缩的工作,看了一下视频稍微整理一下知识点。大概看了看深度学习模型的推理优化方法,包括模型小型化、低比特量化、模型剪枝及知识蒸馏。
2025-03-08 15:20:11
896
原创 EGE-UNet:一种有效的分组增强UNet皮肤病灶分割方法
EGE-UNet以轻量级的方式集成了一个Group multi-axis Hadamard Product Attention module(GHPA)和一个Group Aggregation Bridge module(GAB)。GHPA对输入特征进行分组,并在不同轴上执行Hadamard Product Attention mechanism(HPA),从不同角度提取病理信息。
2025-03-04 15:35:55
963
原创 基于实例感知交互的联合的显微电镜图像去噪与分割
我们的框架包括三个组成部分:去噪网络、分割网络和促进特征级交互的融合网络。首先,去噪网络减轻了噪声的退化。随后,分割网络学习实例级亲和先验,编码重要的空间结构信息。最后,在融合网络中,我们提出了一种新的实例感知嵌入模块(IEM),利用分割特征中的重要空间结构信息进行去噪。IEM在统一的框架内实现了两个任务之间的交互,并通过联合训练机制促进了从去噪到分割的隐式反馈。
2025-01-22 21:22:47
811
原创 用于牙科的多任务视频增强
视频辅助牙科干预中的视频增强减轻了低光、噪音、模糊和相机握手等降低视觉舒适度的问题。为此,我们引入了一种新的深度网络,用于多任务视频增强,使牙科场景的宏观可视化。特别是,该网络以多尺度方式联合利用视频恢复和时间对齐来有效增强视频。
2025-01-21 15:07:58
1318
原创 INT305 Machine Learning
siyue 今年新皇登基,大赦天下!23 ics wcl 同学此刻已是机器学习大师了,拼尽全力无法战胜,教我教我教我教我教我教我教我教我教我教我教我教我教我教我教我
2025-01-06 12:57:58
1163
原创 CPT204 Advanced OO Programming(2)
CPT204是这样的,erick只要课改和把代码往ppt堆就可以,可是学生要考虑的事情就很多了
2024-06-12 15:32:11
1225
原创 分布移位下用于泛化的泛化的自监督测试时训练
在本文中,我们提出了测试时训练(test - time Training),这是一种在训练数据和测试数据来自不同分布时提高预测模型性能的通用方法。我们将单个未标记的测试样本转化为自监督学习问题,在进行预测之前更新模型参数。这也自然地扩展到在online stream中的数据。我们的简单方法可以改善不同的图像分类基准,旨在评估对分布变化的鲁棒性。主要是复现实验理解用写的略有点草率
2024-04-19 15:33:41
1235
原创 语义分割图像预处理代码小汇总
我常用的一些语义分割深度学习预处理代码,包括给把coco格式的数据转换成mask, 对文件名的各种修改,二值标签处理,数据集划分,修改图片大小等等
2024-04-14 16:59:58
426
原创 PairAug:增强图像-文本对对放射学有什么用?
总算迁移学习的工作差不多弄完了回来继续搞多模态了!在本文中,我们提出了一种名为PairAug的方法来解决在放射学中获取配对图像-文本数据集的挑战。paiaug包含两个分支:InterAug和IntraAug。InterAug生成与可信报告配对的合成放射学图像,创建新的患者病例,而IntraAug专注于为每个人生成不同的配对数据。我们采用数据修剪技术来确保高质量的数据。各种任务的实验结果表明,PairAug优于仅关注图像或文本扩展的基线方法。
2024-04-11 23:54:09
1126
原创 FDA: 用于语义分割的傅里叶域自适应
我们描述了一种简单的无监督域自适应方法,即通过交换源和目标分布的低频频谱来减小源和目标分布之间的差异。我们在语义分割中说明了该方法,其中密集注释的图像在一个领域(例如,合成数据)中很丰富,但在另一个领域(例如,真实图像)中很难获得。目前最先进的方法是复杂的,一些需要对抗性优化,以使神经网络的主干对离散域选择变量保持不变。我们的方法不需要任何训练来执行域对齐,只需要一个简单的傅里叶变换及其逆变换。尽管它很简单,但当集成到相对标准的语义分割模型中时,它在当前基准测试中实现了最先进的性能。
2024-03-18 16:13:38
1714
原创 FreMIM:傅里叶变换与遮罩的图像建模在医学图像分割中的应用
为了将关键的全局结构信息和局部细节信息结合到密集预测任务中,我们将视角转移到频域,提出了一种新的基于mimm的自监督预训练框架FreMIM,以更好地完成医学图像分割任务。在观察到详细的结构信息主要存在于高频成分中,而低频成分中高层次语义丰富的基础上,我们进一步在预训练阶段引入多阶段监督来指导表征学习。
2024-03-12 15:59:52
2245
3
原创 DLTTA:跨域医学图像测试时间自适应的动态学习率
本文解决了具有挑战性的测试时自适应问题,旨在通过学习测试时提供的推理样本,将深度模型推广到未知数据分布。本文提出了一种测试时间适应的动态学习率策略,旨在根据估计的预测差异动态调整模型更新的步长。
2024-02-19 11:21:17
1588
原创 神经调节的Hebbian学习用于完全测试时自适应
我们从生物学合理性学习中获得灵感,其中神经元反应是基于局部突触变化过程进行调整的,并由竞争性侧抑制规则激活。基于这些前馈学习规则,我们设计了一个软Hebbian学习过程,为Test-Time adaption 提供了一种无监督的有效机制。我们观察到,通过加入反馈神经调节层,这种前馈Hebbian学习完全适应测试时间的性能可以显著提高。
2024-01-29 15:55:13
1189
原创 TENT:熵最小化的Fully Test-Time Adaption
在测试期间,模型必须自我调整以适应新的和不同的数据。在这种完全自适应测试时间的设置中,模型只有测试数据和它自己的参数。我们建议通过test entropy minimization (tent[1])来适应:我们通过其预测的熵来优化模型的置信度。我们的方法估计归一化统计量,并优化通道仿射变换,以在线更新每个批次。
2024-01-26 15:49:57
5237
原创 用于医学分割的实时Test-time adaption
我们提出了一个名为自适应UNet的新框架,其中每个卷积块都配备了一个自适应批处理归一化层,以根据domain代码调整特征。该域代码是使用在大型医学图像语料库上训练的预训练编码器生成的。在测试过程中,模型只接收新的测试图像,并根据测试数据生成域代码来适应源模型的特征。
2024-01-25 16:00:17
1457
CPT107 离散数学 期末复习笔记配套例题
2023-01-06
CPT107 期末复习笔记
2023-01-06
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人