Multimodel
文章平均质量分 89
Phoenixtree_DongZhao
深度学习 图像处理
展开
-
LLaVA-OneVision 简单视觉任务转移
文章介绍了LLaVA-OneVision,这是一套开放的大型多模态模型(LMMs),通过整合我们在LLaVA-NeXT博客系列中对数据、模型和视觉表达的见解而开发。我们的实验结果显示,LLaVA-OneVision是第一个能够同时推动三个重要计算机视觉场景(单图像、多图像和视频场景)中开放式LMMs性能边界的独特模型。重要的是,LLaVA-OneVision的设计允许在不同形式/场景之间进行强大的迁移学习,产生新兴能力。特别地,在从图像到视频进行任务转换时展示了出色且跨领域能力强大的视频理解水平。原创 2024-08-08 09:14:59 · 674 阅读 · 0 评论 -
Apple 智能基础语言模型
在2024年的全球开发者大会上,苹果推出了Apple Intelligence,这是一个深度集成到iOS 18、iPadOS 18和macOS Sequoia中的个人智能系统。Apple Intelligence由多个高性能生成模型组成,专门为用户的日常任务提供支持,并可以根据当前活动进行实时调整。内置于Apple Intelligence中的基础模型经过精细调整,用于改善用户体验,例如撰写和完善文本、优先处理和总结通知、创建与家人和朋友对话时有趣的图像以及简化跨应用程序交互所需的应用内操作。原创 2024-08-08 08:57:29 · 504 阅读 · 0 评论 -
[ACM MM 2024] AesExpert 面向图像审美知觉的多模态基础模型
本文针对图像美学感知任务中MLLMs的局限性,通过构建AesMMIT多模态美学指令调优数据集,并基于该数据集对开源基础模型进行调优,成功构建了AesExpert多模态美学专家模型。该方法不仅解决了当前MLLMs在美学感知上的不足,还为未来的美学相关任务提供了新的研究思路和实践方向。原创 2024-08-07 17:05:40 · 389 阅读 · 0 评论 -
CLEFT 基于高效大语言模型和快速微调的语言-图像对比学习
CLEFT是一种新型的对比语言图像预训练框架,专为医学图像而设计。它融合了医学LLM的预训练、高效微调和提示上下文学习,展现出卓越的性能!该框架由耶鲁大学研发。最新进展证明了对比语言-图像预训练(CLIP)在自监督表征学习方面取得显著成功。然而,类似CLIP的现有方法通常需要大量GPU资源和长时间训练,因为模型和数据集规模较大,这使其不适用于医疗应用场景中,并非所有都有大规模数据集可供使用。同时,手动从与图像相关联的标签中提取语言模型提示可能会忽略丰富信息样本所包含的内容。原创 2024-08-07 15:28:25 · 356 阅读 · 0 评论 -
多模态大语言模型的免训练视觉提示学习 ControlMLLM
核心思想:在推理过程中,通过调整MLP输出的视觉标记,控制注意力响应,确保文本提示标记关注到视觉标记在指定区域。优化目标:基于能量函数优化一个可学习的潜在变量,增强注意力图中指定区域的强度。原创 2024-08-07 15:16:23 · 470 阅读 · 0 评论 -
MiniCPM-V: A GPT-4V Level MLLM on Your Phone 手机上的 GPT-4V 级多模态大模型
MiniCPM-V是一种高效的多模态大型语言模型,可在移动设备上部署。在 OpenCompass 集合上,MiniCPM-Llama3-V 2.5 在涵盖 11 个流行基准的综合评估中,其性能优于 GPT-4V-1106、Gemini Pro 和 Claude 3。基于从AI/人类反馈中调整多语言大型模型(MLLM)行为的RLAIF-V[112]和RLHF-V[111]技术,MiniCPM-Llama3-V 2.5 展现了更可信的行为,在Object HalBench上的幻觉率低于GPT-4V-1106。原创 2024-08-07 14:00:56 · 589 阅读 · 0 评论