论文
文章平均质量分 53
gasgrge
这个作者很懒,什么都没留下…
展开
-
GPT4RoI: Instruction Tuning Large Language Model on Region-of-Interest
然而,他们的视觉语言对齐仅建立在图像级别上,缺乏区域级别对齐限制了他们在细粒度多模态理解方面的进步。将空间指令和语言嵌入提取的视觉特征的交错序列输入到LLM,并以指令调整格式对转换后的区域文本数据进行训练。创新点:将边界框转换为空间指令,利用大模型的识别、分析、推理能力,实现空间维度上的处理,支持区域级别的理解和多轮对话。背景:大规模语言模型在图像文本对上微调展现出令人惊讶的 多模态表现,然而都是在图像级别的,缺少区域级别的多模态推理。相关技术:大规模语言模型、视觉语言模型、区域级别图像理解。原创 2023-09-11 22:58:01 · 429 阅读 · 0 评论 -
[学习]基于深度学习的车辆重识别算法综述
本文主要内容:定义了车辆重识别的概念,问题来源,现在的几种解决方法,并进行了实验对比,最后做出总结,对车辆识别领域做出分析展望。原创 2023-05-18 22:18:14 · 1159 阅读 · 1 评论 -
ChatCAD: Interactive Computer-Aided Diagnosis on Medical Image using Large Language Models
chatCAD: 融合大规模语言模型LLM的语言理解优点和医学图像辅助诊断CAD识别医学图像信息的特点。优点:可微调每个模型,提供交互式解释和建议,有可能提高在线健康服务。报告产生网络R2GenCMN,数据集MIMIC-CXR。比较不同llm,模型越大诊断能力越强,报告更长。分类器输出5个向量值,代表五种疾病的概率。分类网络PCAM 数据集CheXpert。生成报告的质量评价标准PR,RC,F1。LLM版本Jan-30-2023。原创 2023-06-22 03:06:50 · 703 阅读 · 0 评论