- 博客(9)
- 收藏
- 关注
原创 LLaVA-Med: Training a Large Language-and-Vision Assistant for Biomedicine in One Day
0.摘要 0.1.Background:对话式生成式人工智能已显示出为生物医学从业者赋能的巨大潜力,但目前的研究主要集中在单模态文本上。 0.2.Issue:多模态对话式人工智能通过利用来自公共网络的数十亿个图像-文本对取得了快速进展,但这种通用领域的视觉语言模型在理解和对话生物医学图像方面仍然缺乏复杂性。 0.3.Method:文本提出了一种经济高效的方法来训练视觉语言对话助手,该助手可以回答生物医学图像的开放式研究问题。关键思想是利用从PubMed
2025-01-07 17:31:39
687
原创 Retreval-Enhanced Contrastive Vision-Text Models
0.Abstract. 0.1.Background: 对比性的图文模型比如CLIP形成了许多SOTA系统; 0.2.Issue: 但是在一些细粒度比较高的问题上,也就是说训练数据集没有涵盖的问题(在这里可以类比corner case、zero-shot 或者域外图片的概念); 0.3.Method: 因此扩大数据集的涵盖面或者优化zero-shot的性能是两种不错的思路。本文探索了一种将细粒度知识嵌入到外部记忆中的方法,也就是说:图文模型在推理的时候将
2024-12-30 20:35:33
572
原创 BLIP-2:Bootsrapping language-image pretraining with frozen image encoders and large language models
图像到文本的生成损失是之前的工作者所运用的方法,为此,文本运用了一个有效的视觉语言对齐方法:Querying Transformer(Q-Former),这是一种轻量的Transformer使用一系列的可以学习的query verctor从冻结的图像解码器中提取视觉特征。视觉语言表示学习的作用是使得Q-Former学习到视觉与文本之间的相关表征,视觉语言生成学习是将视觉语言生成学习连接Q-Former到冻结的大预言模型,使得输出的视觉表征可以被大预言模型解释。
2024-12-27 15:37:19
770
原创 BLIP-2 paper rewriting
使用现成的预训练模型并在VLP期间保持它们冻结,一些方法冻结了图像编码器,包括早期的工作,它采用冻结的物体检测器来提取视觉特征,还有一些方法使用冻结的预训练图像编码器进行VLIP预训练。第一个与训练阶段,本文执行视觉语言表示学习,强制Q-Former学习与文本最相关的视觉表示,在第二个预训练阶段,通过Q-Former的输出连接到冻结的LLM来执行视觉到语言的生成学习,并训练Q-Former,以便输出的视觉表示可以被LLM解释。对于基于解码器的LLM,本文适应语言建模损失进行预训练,其中,将文本分成两部分。
2024-12-05 13:20:48
733
原创 G-Retriever: Retrieval-Augmented Generation forTextual Graph Understanding andQuestion Answering
另外,为了解决图LLM中的幻觉,即生成内容在事实上不准确且毫无意义的现象,本文采用了一种将MiniGPT-4适配到图形的基线方法,其中冻结的LLM可与训练的GNN交互,后者将图形数据编码为软提示。1.1.现存的工作主要集成了LLM和GNN或回答小型合成图,但是本文开发了让灵活的框架,本文提出的模型是:Chat with your graph,此模型主要分为三个部分:常识推理,场景理解和知识图推理,这使得用户能够通过统一的对话界面与他们的图聊天,这是一次直观交互的飞跃。2)冻结的LLM带提示调整(PT);
2024-11-29 14:42:19
399
原创 Invertible Image Signal Processing 论文rewriting 学习
在本文中,分析了传统ISP中丢失的信息,本文与传统不同之处在于设计了端到端的可逆ISP,绕过传统模块,最大程度额减少了RAW数据和JPEG图像转化过程中的信息丢失。4.1.可逆图像信号处理(InvISP):本文旨在找到可逆的双射函数,该函数可以将数据点从RAW数据空间映射到SRGB数据空间,表示为f:X-->y(X为RAW数据空间,y为sRGB数据空间),为此神经网络需要两个独立的网络分别近似X-->Y与Y-->X的映射,这会导致不准确的双摄映射,并且可能将一个映射的累计误差映射到另一个映射中。
2024-11-23 15:23:41
576
原创 RAPTOR: Rescursive abstractive processing for tree-organized retrieval paper rewriting
这是索引增强的方法。3.5.Quanlitative Study: 本文进行定性分析以了解RAPTOR检索过程与密集段落检索DPR方法相比的优势,RAPTOR基于树的检索允许它从不同的树层中选择节点,以匹配问题的详细程度,这种方法通常比DPR为下游任务提供的信息更详细。本文将句子分成多个块并且保留它们之间的连续性,基于BERT编码器以及对应的SBERT嵌入构成了我们树结构的叶节点,并且采用聚类算法后对于重新嵌入这些总结的文本,并继续嵌入,聚类和总结的循环,从而产生原始文档的结构化,多层树表示。
2024-11-21 13:02:19
318
原创 图像分类-->推理
2.1.将图像拉伸至32*32*3=1072的向量X之后与权重参数矩阵W进行矩阵乘法计算:F = WX+B(B为偏移量矩阵),最后我们得到了图像为各个类别的可能性大小值(在这里f是关于输入图像X向量与权重参数矩阵W的函数).笔者在这里跳过公式。2.3.图像推理之-正则化(perceptorn):感知机的作用是格式化输出,将计算出的结果进行二分类输出(0或1),多层感知机也是以此类推,作用是--引入稀疏性,降低计算复杂度以及加速模型收敛。本文档仅用于文档自学以及rewriting 能力的提升,望知悉。
2024-11-15 12:26:29
161
原创 Retrieve-and-Sample:(paper rewriting) 学习自用随笔
2.2. 问题解决: 上图所示,本文提出了三种类型的检索生成器也就是RAG-DocEAE,分别是context-consistency retrieval-augmented docEAE,schema-consistency retrieval-augmented doc EAE, 以及adaptive hybrid retrieval-augmented docEAE,topk-k算法是三种检索生成器的首要条件;1.1. 背景: 检索增强的必要性得到了确认,即非参数方法获得先验知识,并加以利用;
2024-11-14 11:08:08
341
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人