Large Model
文章平均质量分 89
Phoenixtree_DongZhao
深度学习 图像处理
展开
-
BioMamba:利用Mamba的预训练生物医学语言表示模型
在生物学领域的自然语言处理(NLP)中,模型对于解释复杂的生物医学文献至关重要。然而,传统模型在处理这一特定领域中的复杂语言时常遇到困难。本文介绍了一种名为BioMamba的预训练模型,专门设计用于挖掘生物医学文本。BioMamba基于Mamba架构,并经过大量生物医学文献的预训练。本文进行了实证研究,结果显示BioMamba在各种生物医学任务上表现明显优于BioBERT和通用领域的Mamba等模型。例如,在BioASQ测试集上使用BioMamba可以将困惑度降低100倍、交叉熵损失降低4倍。原创 2024-08-08 09:49:08 · 339 阅读 · 0 评论 -
LLaVA-OneVision 简单视觉任务转移
文章介绍了LLaVA-OneVision,这是一套开放的大型多模态模型(LMMs),通过整合我们在LLaVA-NeXT博客系列中对数据、模型和视觉表达的见解而开发。我们的实验结果显示,LLaVA-OneVision是第一个能够同时推动三个重要计算机视觉场景(单图像、多图像和视频场景)中开放式LMMs性能边界的独特模型。重要的是,LLaVA-OneVision的设计允许在不同形式/场景之间进行强大的迁移学习,产生新兴能力。特别地,在从图像到视频进行任务转换时展示了出色且跨领域能力强大的视频理解水平。原创 2024-08-08 09:14:59 · 674 阅读 · 0 评论 -
Apple 智能基础语言模型
在2024年的全球开发者大会上,苹果推出了Apple Intelligence,这是一个深度集成到iOS 18、iPadOS 18和macOS Sequoia中的个人智能系统。Apple Intelligence由多个高性能生成模型组成,专门为用户的日常任务提供支持,并可以根据当前活动进行实时调整。内置于Apple Intelligence中的基础模型经过精细调整,用于改善用户体验,例如撰写和完善文本、优先处理和总结通知、创建与家人和朋友对话时有趣的图像以及简化跨应用程序交互所需的应用内操作。原创 2024-08-08 08:57:29 · 504 阅读 · 0 评论 -
[ACM MM 2024] AesExpert 面向图像审美知觉的多模态基础模型
本文针对图像美学感知任务中MLLMs的局限性,通过构建AesMMIT多模态美学指令调优数据集,并基于该数据集对开源基础模型进行调优,成功构建了AesExpert多模态美学专家模型。该方法不仅解决了当前MLLMs在美学感知上的不足,还为未来的美学相关任务提供了新的研究思路和实践方向。原创 2024-08-07 17:05:40 · 389 阅读 · 0 评论 -
CLEFT 基于高效大语言模型和快速微调的语言-图像对比学习
CLEFT是一种新型的对比语言图像预训练框架,专为医学图像而设计。它融合了医学LLM的预训练、高效微调和提示上下文学习,展现出卓越的性能!该框架由耶鲁大学研发。最新进展证明了对比语言-图像预训练(CLIP)在自监督表征学习方面取得显著成功。然而,类似CLIP的现有方法通常需要大量GPU资源和长时间训练,因为模型和数据集规模较大,这使其不适用于医疗应用场景中,并非所有都有大规模数据集可供使用。同时,手动从与图像相关联的标签中提取语言模型提示可能会忽略丰富信息样本所包含的内容。原创 2024-08-07 15:28:25 · 356 阅读 · 0 评论 -
多模态大语言模型的免训练视觉提示学习 ControlMLLM
核心思想:在推理过程中,通过调整MLP输出的视觉标记,控制注意力响应,确保文本提示标记关注到视觉标记在指定区域。优化目标:基于能量函数优化一个可学习的潜在变量,增强注意力图中指定区域的强度。原创 2024-08-07 15:16:23 · 470 阅读 · 0 评论 -
MiniCPM-V: A GPT-4V Level MLLM on Your Phone 手机上的 GPT-4V 级多模态大模型
MiniCPM-V是一种高效的多模态大型语言模型,可在移动设备上部署。在 OpenCompass 集合上,MiniCPM-Llama3-V 2.5 在涵盖 11 个流行基准的综合评估中,其性能优于 GPT-4V-1106、Gemini Pro 和 Claude 3。基于从AI/人类反馈中调整多语言大型模型(MLLM)行为的RLAIF-V[112]和RLHF-V[111]技术,MiniCPM-Llama3-V 2.5 展现了更可信的行为,在Object HalBench上的幻觉率低于GPT-4V-1106。原创 2024-08-07 14:00:56 · 585 阅读 · 0 评论 -
Nature Medicine:基于图像的深度学习和语言模型用于原发性糖尿病护理
为了解决糖尿病护理中存在的差距,我们开发了一种创新的系统DeepDR-LLM,它将一个LLM模块和一个基于图像的DL模块结合在一起,提供全面的初级糖尿病护理和DR筛查方法。糖尿病视网膜病变(DR)是最常见的糖尿病特定并发症,影响30-40%的患有糖尿病的人群11,12,13,并且仍然是经济活跃、工作年龄成人失明的主要原因11,14,15。然而,在低资源环境下,由于基础设施、人力资源和可持续性具有成本效益的DR筛查计划匮乏,往往忽视了DR筛查在低收入国家中不足之处。原创 2024-08-07 13:15:03 · 553 阅读 · 0 评论 -
《A Survey of Mamba》Mamba 最新综述!!(2024-08-05)
Transformers作为最具代表性之一架构,赋予了许多先进模型以力量,特别是那些包含数十亿参数的大型语言模型,在深度学习中扮演着基础角色。因此,在本综述中对最近与 Mamba 相关联 的研究进行深入调查,主要涵盖三个方向:基于 Mambas 的模式进步、使 Mambas 适应各类数据技巧和 Mambas 可善用之处。本文对Mamba进行了全面调查,主要包括三个方面:Mamba模型的进展、使Mamba适应各种数据的技术以及Mamba在不同领域中的优势应用。这篇综述共有38页!涵盖了235篇文献!原创 2024-08-05 17:34:05 · 803 阅读 · 0 评论 -
基于贡献的低秩自适应预训练模型----用于真实图像恢复
在自然语言处理和高级计算机视觉领域,预训练模型和高效参数调整已经取得了显著的成功。然而,在低级计算机视觉领域,尽管其在各种实际任务中具有重要性和好处(例如在AI边缘设备上集成新任务时减轻内存膨胀问题),但对于预训练模型甚至没有进行有效的微调策略研究。因此,本文提出了一种名为基于贡献的低秩适应(CoLoRA)的新方法,用于多图像恢复,并结合随机顺序退化(PROD)的有效预训练方法。原创 2024-08-05 17:04:02 · 968 阅读 · 0 评论