菜鸡不叫-CSDN博客

原创【FlARG】主动检索增强生成

提出FLARG，主动检索增强生成迭代地使用对即将出现的句子的预测来预测未来的内容，然后将其用作查询来检索相关文档，以便在句子包含低置信度标记时重新生成句子。

2024-08-21 16:50:49 1063

原创【DRAGIN】动态RAG---解决何时检索，如何检索？

引入了一个新框架 DRAGIN，即基于 LLM 信息需求的动态检索增强生成。确定激活检索模块的最佳时机（决定何时检索）和在触发检索后设计适当的查询（确定检索什么）对于检索的时间，提出RIND：实时信息需求检测，考虑 LLM 对其自身生成内容的不确定性、每个 token 对后续 token 的影响以及每个 token 的语义重要性。对于检索查询的制定，提出 QFS：基于自注意力的查询制定，通过利用 LLM 在整个上下文中的自注意力来创新查询制定

2024-08-21 09:15:45 2306

原创【RAG】同济大学发布RAG综述

大型语言模型 (LLM) 展现出令人印象深刻的功能，但也面临幻觉、知识过时以及不透明、无法追踪的推理过程等挑战。检索增强生成 (RAG) 通过整合来自外部数据库的知识，已成为一种有前途的解决方案。这提高了生成的准确性和可信度，特别是对于知识密集型任务，并允许持续更新知识和集成特定领域信息。RAG 协同将 LLM 的内在知识与外部数据库的庞大动态存储库合并。大模型时代下 RAG 的发展轨迹呈现出几个明显的阶段性特征。最初，RAG 的诞生恰逢 Transformer 架构的兴起，专注于通过预训练模

2024-08-18 21:17:59 1308

原创【RAG综述】北京大学检索增强技术综述

图 1 描述了一个典型的 RAG 过程。给定一个输入查询，检索器识别相关的数据源，检索到的信息与生成器交互以改进生成过程。根据检索结果如何增强生成，有几种基础范式（简称基础）：它们可以作为生成器的增强输入；它们可以作为潜在表示加入生成的中间阶段；它们可以以 logits 的形式为最终的生成结果做出贡献；它们甚至可以影响或省略某些生成步骤。此外，研究人员还提出了各种增强方法来改进基础 RAG 过程。RAG 过程如下：（i）检索器首先接收输入查询并搜索相关信息；（ii）然后，原始查询和检索结果通过特

2024-08-17 21:30:08 1178

原创【LayTextLLM】将边界框映射到单个嵌入中，并将其与文本交错排列

将边界框映射到单个嵌入中，并将其与文本交错排列。

2024-08-13 09:22:11 775

原创【Agent】初步理解

何为agent

2024-07-26 15:37:38 982

原创【ConvNeXt V2】借鉴MAE自监督学习

在本文中，作者介绍了一种新的 ConvNet 模型系列，称为 ConvNeXt V2，它涵盖了更广泛的复杂性。虽然架构变化很小，但它专门设计为更适合自监督学习。使用作者的全卷积Mask自动编码器预训练，作者可以显著提高纯 ConvNets 在各种下游任务中的性能，包括 ImageNet 分类、COCO 对象检测和 ADE20K 分割。onvNet 模型系列，称为 ConvNeXt V2，它涵盖了更广泛的复杂性。虽然架构变化很小，但它专门设计为更适合自监督学习。

2024-07-25 09:28:09 1549

原创【LayoutLLM】文档预训练模型+LLM ＞ MLLM

提出 LayoutLLM ，使用 document pretrained models提出了三组不同层次的预训练任务：文档级、区域级和分段级，学习从全局到局部的文档布局。提出 LayoutCoT ，保证对于布局信息的充分使用。

2024-05-10 11:20:48 1717

原创【 LayoutLM】 LayoutLMv3---统一的文本和图像掩码来预训练文档 AI 的多模态 Transformer

从而缓解了这个问题。比较模型 #3 和模型 #2 的结果，MIM 目标有利于 CORD 和 RVL-CDIP。由于简单地使用线性图像嵌入改进了 FUNSD，因此 MIM 不会进一步对 FUNSD 做出贡献。通过在训练中结合 MIM 目标，在微调 PubLayNet 时损失会收敛，如图 4 所示，并且获得了理想的 mAP 分数。结果表明，MIM 可以帮助规范训练。因此，MIM 对于 PubLayNet 上的文档布局分析等视觉任务至关重要。

2024-04-02 22:43:14 3893 1

原创【LayoutLM】LayoutLMv2---预训练阶段集成文档文本、布局和视觉信息

提出了一种多模态 Transformer 模型，在预训练阶段集成文档文本、布局和视觉信息，在单个框架中学习端到端的跨模态交互。同时，Transformer 架构中集成了空间感知的自注意力机制。LayoutLMv2 的两个新训练目标。第一个是提出的文本图像对齐策略，它将文本行和相应的图像区域对齐。第二种是视觉语言预训练模型中流行的文本图像匹配策略。

2024-04-02 22:04:43 1492

原创【LayoutLM】LayoutLMv1---基于大规模未标记扫描文档图像进行自监督训练

• 首次在单一框架中对扫描文档图像的文本和布局信息进行预训练,利用图像特征来实现新的最先进的结果。• LayoutLM 使用屏蔽视觉语言模型和多标签文档分类作为训练目标，在文档图像理解任务中显着优于几种 SOTA 预训练模型。

2024-04-02 20:56:23 1092

原创【MS-CLIP】共享参数的ModalityShared CLIP (MS-CLIP) 架构

微软最新发布的 MS-CLIP，与两者都不同 —— 虽然它脱胎于 CLIP，设计了只处理单模态的 transformer encoder，但两个 encoder 之间是共享部分参数的。同时，它还为模型添加了基于 CNN 的两种辅助结构，让模型能够获取更多的图像信息。

2023-12-31 16:49:42 1349

原创【 FILIP】一种大规模细粒度交互式语言图像预训练方法

作者引入了大规模细粒度交互式语言图像预训练（FILIP），通过跨模态后期交互机制实现更精细的对齐，该机制使用视觉token和文本token之间的token级别最大相似度指导对比学习的目标函数。FILIP 通过仅修改对比损失，成功地利用了图像块和文本单词之间的细粒度表达能力，同时获得了在推理时离线预计算图像和文本表示的能力，保持了大规模训练和推理的效率。作者构建了一个新的大规模图像文本对数据集 FILIP300M 进行预训练。

2023-12-26 13:44:06 1741 1

原创【FLIP】一种用于训练CLIP的简单而有效的方案

作者提出一种用于训练CLIP的简单而有效的方案FLIP(Fast Language-Image Pre-training, FLIP),它在训练过程中对图像块进行大比例的随机Mask移除。Mask机制使得CLIP可以在有限周期内学习到更多的image-text数据对，同时占有更少的内存。所提方案取得了更好的精度与训练时间均衡，相比无Mask基线方案，所提FLIP在精度与训练速度方面具有大幅改善。

2023-12-24 15:59:45 1799

原创【MAE】一种高效的自监督训练器

MAE—随机mask掉一部分patches并重建这部分丢失的像素，可看作是一个可扩展的(scalable)自监督学习器，能极大加速模型的训练速度并提升准确率。下游迁移性能优于有监督预训练，并有良好的的scaling（可扩展性）。MAE是一种很好的自监督训练器，其训练的预训练模型，比有监督的、MOCO自监督的，在下游任务finetune上都取得更好的效果。

2023-12-21 21:37:33 1266

原创【CLIP】多模态预训练模型CLIP论文详解

CLIP（ Contrastive Language–Image Pre-training）基于对比学习的语言-图像预训练）建立在零样本迁移（zero-shot transfer）、自然语言监督学习( natural language supervision,) 和多模态学习方面的大量工作之上。CLIP是一个预训练模型，训练好的模型能实现，输入一段文本（或者一张图像），输出文本（图像）的向量表示。

2023-12-20 20:39:20 29280 7

原创【pytorch】创建一个虚拟环境，并安装pytorch（gpu版本）

为了复现BasicVSR++,特地开了一个新的虚拟环境myCV，因此安装pytorch

2023-12-12 14:23:32 842 1

原创【Video-LLaMA】增强LLM对视频内容的理解

大型语言模型 (LLM)在遵循用户意图和指示上表现出了卓越的理解和理解能力，通常，LLM的用户请求和相应的响应都是文本形式的，然而，由于现实世界的信息通常是多模态的，仅文本人机交互对于许多应用场景来说是不够的。即给定视频的表示，促使冻结的LLM生成相应的文本描述。

2023-12-05 12:20:02 2177 1

原创【Transformer】注意力机制+Transformer详解（模型，训练和预测）

本文对Transoformer模型进行了深度解读，包括整体架构，Multi-head Attention的本质，FFN，Positional Embedding以及Layer Normalization等

2023-11-30 23:18:10 3225

原创【视频超分辨率】视频超分辨率的介绍（定义，评价指标，分类）

视频超分率起源于图像超分率，旨在根据已有的低分辨率视频序列生成具有真实细节和内容连续的高分辨率视频序列。视频超分辨率技术可以将，以提供更多的细节和清晰度。视频超分辨率技术主要分为的方法两类。视频超分辨率评价标准主要为。接下来，我将展开详细介绍视频超分的两个方法和评价标准。

2023-11-29 17:52:29 4771 1

原创【keras_contrib】离线安装

1.下载安装包地址：https://github.com/keras-team/keras-contrib。2.将keras_contrib解压包放置到 E:\Anaconda3\Lib\site-packages。keras_contrib是keras的一个高级网络实现模块，里面包含了用。3.进入到下载的keras_contrib包中，运行下述语句完成安装。注意文件夹名字改为 keras_contrib。

2023-11-25 21:29:27 883

原创【tensorflow】tensorflow-gpu 2.6 环境搭建(CUDA,cuDNN)

本文是在基于你已经安装好了Anaconda,并且已经装好了CUDA那么如何查看自己安装的CUDA+cuDNN？

2023-11-25 21:19:08 571

原创如何在cmd命令行下切换目录

Win+R组合打开运行，输入cmd，然后回车进入命令行模式。

2023-11-25 20:19:30 921

原创卷积神经网络详解

CNN,卷积，池化，1X1卷积，LeNet实现

2023-11-06 09:50:48 449 1

原创【Word2vec】帮你理解Word2vec

在自然语言处理任务中，首先要将词语表示成向量的形式，这样计算机才能读懂文本。词向量在自然语言处理中有着重要的角色，它将抽象的词语之间的语义关系量化成向量形式。有了良好的词向量，我们可以使用机器学习、深度学习的模型完成更多的工作。

2023-10-19 15:37:36 430

原创知识图谱的构建流程

为保证知识图谱质量，通常在建模时需考虑如下几个关键问题：概念划分的合理性，如何描述知识体系和知识点之间的关联关系；属性定义方式，如何在冗余度最低的条件下满足应用和可视化展示；时间、时序等复杂知识标示，通过匿名节点的方式还是边属性的方式进行描述，有何优缺点？后续的知识扩展难度，是否支持概念体系的变更和属性调整？

2023-10-19 15:10:52 889

原创自定义块,加载和存储模型参数

在实现自定义块之前，简要总结一下每个块必须提供的基本功能。将输入数据作为其前向传播函数的参数。通过前向传播函数来生成输出。请注意，输出的形状可能与输入的形状不同。例如，模型中的第一个全连接的层接收一个20维的输入，但是返回一个维度为256的输出。计算其输出关于输入的梯度，可通过其反向传播函数进行访问。通常这是自动发生的。存储和访问前向传播计算所需的参数。根据需要初始化模型参数。# 用模型参数声明层。这里，我们声明两个全连接的层# 调用MLP的父类Module的构造函数来执行必要的初始化。

2023-10-18 19:37:07 91 1

原创数值稳定性---梯度消失and梯度爆炸

sigmoid导数最大的时候也只有0.25，其余时候远小于0.25，因此如果每层的激活函数都为Logistic函数的话，很容易导致梯度消失问题，Tanh函数的导数峰值是1那也仅仅在取值为0的时候，其余时候都是小于1，因此通过链式求导之后，Tanh函数也很容易导致梯度消失。糟糕选择可能会导致我们在训练时遇到梯度爆炸或梯度消失。从relu的函数特性我们知道，在小于0的时候梯度为0，大于0的时候梯度恒为1，那么此时就不会再存在梯度消失和梯度爆炸的问题了，因为每层的网络得到的梯度更新速度都一样。

2023-10-10 17:06:02 170 1

原创权重衰减-Dropout

然而也有一些例外：一些研究人员在测试时使用暂退法，用于估计神经网络预测的“不确定性”：如果通过许多不同的暂退法遮盖后得到的预测结果都是一致的，那么我们可以说网络发挥更稳定。比如在图4.6.1中，删除了h2和h5，因此输出的计算不再依赖于h2或h5，并且它们各自的梯度在执行反向传播时也会消失。现在，如果我们的权重向量增长的太大，我们的学习算法可能会更集中于最小化权重范数。这项技术通过函数与零的距离来衡量函数的复杂度，因为在所有函数f中，函数 f = 0（所有输入都得到值0）在某种意义上是最简单的。

2023-10-08 19:56:35 251 1

原创模型选择，欠拟合以及过拟合

泛化误差（generalization error）是指，模型应用在同样从原始样本的分布中抽取的无限多数据样本时，模型误差的期望。训练误差（training error）是指，模型在训练数据集上计算得到的误差。合适的拟合程度：泛化能力强，训练样本集准确率高，测试样本集准确率高。欠拟合：泛化能力差，训练样本集准确率低，测试样本集准确率低。过拟合：泛化能力差，训练样本集准确率高，测试样本集准确率低。功能：指数函数(x的y次方)参数还未收敛就停止循环。

2023-10-08 17:54:05 147 1

原创多层感知机

Fashion‐MNIST中的每个图像由 28 × 28 = 784个灰度像素值组成。所有图像共分为10个类别。忽略像素之间的空间结构，我们可以将每个图像视为具有784个输入特征和10个类的简单分类数据集。线性到非线性：在仿射变换之后对每个隐藏单元应用非线性的激活函数（activation function）σ。因为内存在硬件中的分配和寻址方式，这么做往往可以在计算上更高效。经典激活函数：ReLU ，sigmoid ，tanh。

2023-10-08 17:51:34 71 1

原创 softmax 和交叉熵损失函数

为了解决分类问题

2023-09-24 21:21:28 155 1

原创线性回归

定义模型，将模型的输入和参数同模型的输出关联起来或者并初始化参数或在每一步中，使用从数据集中随机抽取的一个小批量，然后根据参数计算损失的梯度。接下来，朝着减少损失的方向更新我们的参数。下面的函数实现小批量随机梯度下降更新。该函数接受模型参数集合、学习速率和批量大小作为输入。每一步更新的大小由学习速率lr决定。因为我们计算的损失是一个批量样本的总和，所以我们用批量大小（batch_size）来规范化步长，这样步长大小就不会取决于我们对批量大小的选择或。

2023-09-15 10:33:08 100

原创矩阵求导，自动求导

矩阵对标量求导（Matrix-by-scalar）如果 Y 是一个矩阵，x 是一个标量，那么 Y 对 x 的导数是一个与 Y 维度相同的矩阵，其中每个元素是 Y 中对应元素对 x 的导数。标量对矩阵求导（Scalar-by-matrix）如果 y 是一个标量，X 是一个矩阵，那么 y 对 X 的导数是一个与 X 维度相同的矩阵，其中每个元素是 y 对 X 中对应元素的导数。y.sum().backward() x.grad # 等价于y.backward(torch.ones(len(x)))

2023-09-14 19:50:36 235 1

原创数据预处理，线代

用向量表示物品（如单词、产品或新闻文章），以便最小化相似项目之间的距离，最大化不同项目之间的距离。注意，A的列维数（沿轴1的长度）必须与x的维数（其长度）相同。A.sum(axis=[0,1,2])=A.sum()#在轴0，1，2上求和。按行列求和---A.sum(axis=0)，B.sum(axis=1)L1范数---orch.abs(u).sum()#绝对值和。L2范数---torch.norm(u)#根下平方值和。，或许是深度学习算法最重要的组成部分（除了数据），#取字典中最大值的键。

2023-09-14 15:00:58 119 1

原创 pytorch的基础函数

makedirs---用法和语法同mkdir. 区别在于makedirs()可以创建多级目录，而mkdir()只能创建一级目录，具体图下。切片---第一个元素的索引是0，最后一个元素索引是‐1；read_csv---csv文件读取。arange---产生顺序数列。numel---访问元素数量。reshape---改变形状。tensor---形成自编辑。id()---形成初始地址。shape---访问形状。zeros---形成全零。randn---形成随机。ones---形成全一。

2023-09-13 23:08:33 94

原创 conda install 包名错误

解决方案：删除.condarc文件。

2023-03-12 20:41:12 374

原创 Anaconda Prompt 怎样切换环境，工作路径，以及怎样修改默认环境和默认路径

在win环境下安装的Anaconda，打开其提供的Anaconda Prompt窗口，默认环境为base,默认路径是你的用户名，如下图：conda activate env_name 可以切换环境E: 切换到你的指定目录的盘符cd 切换到你指定路径下，即可成功：同样是Anaconda Prompt属性页的快捷方式栏的起始位置处，更改成你想默认打开的路径即可

2023-03-08 21:30:19 15819 1

空空如也

空空如也