自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(31)
  • 收藏
  • 关注

原创 【LayoutLLM】文档预训练模型+LLM > MLLM

提出 LayoutLLM ,使用 document pretrained models提出了三组不同层次的预训练任务:文档级、区域级和分段级,学习从全局到局部的文档布局。提出 LayoutCoT ,保证对于布局信息的充分使用。

2024-05-10 11:20:48 832

原创 【 LayoutLM】 LayoutLMv3---统一的文本和图像掩码来预训练文档 AI 的多模态 Transformer

从而缓解了这个问题。比较模型 #3 和模型 #2 的结果,MIM 目标有利于 CORD 和 RVL-CDIP。由于简单地使用线性图像嵌入改进了 FUNSD,因此 MIM 不会进一步对 FUNSD 做出贡献。通过在训练中结合 MIM 目标,在微调 PubLayNet 时损失会收敛,如图 4 所示,并且获得了理想的 mAP 分数。结果表明,MIM 可以帮助规范训练。因此,MIM 对于 PubLayNet 上的文档布局分析等视觉任务至关重要。

2024-04-02 22:43:14 1487 1

原创 【LayoutLM】LayoutLMv2---预训练阶段集成文档文本、布局和视觉信息

提出了一种多模态 Transformer 模型,在预训练阶段集成文档文本、布局和视觉信息,在单个框架中学习端到端的跨模态交互。同时,Transformer 架构中集成了空间感知的自注意力机制。LayoutLMv2 的两个新训练目标。第一个是提出的文本图像对齐策略,它将文本行和相应的图像区域对齐。第二种是视觉语言预训练模型中流行的文本图像匹配策略。

2024-04-02 22:04:43 1184

原创 【LayoutLM】LayoutLMv1---基于大规模未标记扫描文档图像进行自监督训练

• 首次在单一框架中对扫描文档图像的文本和布局信息进行预训练,利用图像特征来实现新的最先进的结果。• LayoutLM 使用屏蔽视觉语言模型和多标签文档分类作为训练目标,在文档图像理解任务中显着优于几种 SOTA 预训练模型。

2024-04-02 20:56:23 772

原创 【MS-CLIP】共享参数的ModalityShared CLIP (MS-CLIP) 架构

微软最新发布的 MS-CLIP,与两者都不同 —— 虽然它脱胎于 CLIP,设计了只处理单模态的 transformer encoder,但两个 encoder 之间是共享部分参数的。同时,它还为模型添加了基于 CNN 的两种辅助结构,让模型能够获取更多的图像信息。

2023-12-31 16:49:42 988

原创 【 FILIP】一种大规模细粒度交互式语言图像预训练方法

作者引入了大规模细粒度交互式语言图像预训练(FILIP),通过跨模态后期交互机制实现更精细的对齐,该机制使用视觉token和文本token之间的token级别最大相似度指导对比学习的目标函数。FILIP 通过仅修改对比损失,成功地利用了图像块和文本单词之间的细粒度表达能力,同时获得了在推理时离线预计算图像和文本表示的能力,保持了大规模训练和推理的效率。作者构建了一个新的大规模图像文本对数据集 FILIP300M 进行预训练。

2023-12-26 13:44:06 1099 1

原创 【FLIP】一种用于训练CLIP的简单而有效的方案

作者提出一种用于训练CLIP的简单而有效的方案FLIP(Fast Language-Image Pre-training, FLIP),它在训练过程中对图像块进行大比例的随机Mask移除。Mask机制使得CLIP可以在有限周期内学习到更多的image-text数据对,同时占有更少的内存。所提方案取得了更好的精度与训练时间均衡,相比无Mask基线方案,所提FLIP在精度与训练速度方面具有大幅改善。

2023-12-24 15:59:45 1174

原创 【MAE】一种高效的自监督训练器

MAE—随机mask掉一部分patches并重建这部分丢失的像素,可看作是一个可扩展的(scalable)自监督学习器,能极大加速模型的训练速度并提升准确率。下游迁移性能优于有监督预训练,并有良好的的scaling(可扩展性)。MAE是一种很好的自监督训练器,其训练的预训练模型,比有监督的、MOCO自监督的,在下游任务finetune上都取得更好的效果。

2023-12-21 21:37:33 1079

原创 【CLIP】多模态预训练模型CLIP论文详解

CLIP( Contrastive Language–Image Pre-training)基于对比学习的语言-图像预训练)建立在零样本迁移(zero-shot transfer)、自然语言监督学习( natural language supervision,) 和多模态学习方面的大量工作之上。CLIP是一个预训练模型,训练好的模型能实现,输入一段文本(或者一张图像),输出文本(图像)的向量表示。

2023-12-20 20:39:20 4886 2

原创 【pytorch】创建一个虚拟环境,并安装pytorch(gpu版本)

为了复现BasicVSR++,特地开了一个新的虚拟环境myCV,因此安装pytorch

2023-12-12 14:23:32 515 1

原创 【Video-LLaMA】增强LLM对视频内容的理解

大型语言模型 (LLM)在遵循用户意图和指示上表现出了卓越的理解和理解能力,通常,LLM的用户请求和相应的响应都是文本形式的,然而,由于现实世界的信息通常是多模态的,仅文本人机交互对于许多应用场景来说是不够的。即给定视频的表示,促使冻结的LLM生成相应的文本描述。

2023-12-05 12:20:02 1436

原创 【Transformer】注意力机制+Transformer详解(模型,训练和预测)

本文对Transoformer模型进行了深度解读,包括整体架构,Multi-head Attention的本质,FFN,Positional Embedding以及Layer Normalization等

2023-11-30 23:18:10 2117

原创 【视频超分辨率】视频超分辨率的介绍(定义,评价指标,分类)

视频超分率起源于图像超分率,旨在根据已有的低分辨率视频序列生成具有真实细节和内容连续的高分辨率视频序列。视频超分辨率技术可以将,以提供更多的细节和清晰度。视频超分辨率技术主要分为的方法两类。视频超分辨率评价标准主要为。接下来,我将展开详细介绍视频超分的两个方法和评价标准。

2023-11-29 17:52:29 2599 1

原创 【keras_contrib】离线安装

1.下载安装包地址:https://github.com/keras-team/keras-contrib。2.将keras_contrib解压包放置到 E:\Anaconda3\Lib\site-packages。keras_contrib是keras的一个高级网络实现模块,里面包含了用。3.进入到下载的keras_contrib包中,运行下述语句完成安装。注意文件夹名字改为 keras_contrib。

2023-11-25 21:29:27 717

原创 【tensorflow】tensorflow-gpu 2.6 环境搭建(CUDA,cuDNN)

本文是在基于你已经安装好了Anaconda,并且已经装好了CUDA那么如何查看自己安装的CUDA+cuDNN?

2023-11-25 21:19:08 460

原创 如何在cmd命令行下切换目录

Win+R组合打开运行,输入cmd,然后回车进入命令行模式。

2023-11-25 20:19:30 538

原创 卷积神经网络详解

CNN,卷积,池化,1X1卷积,LeNet实现

2023-11-06 09:50:48 339 1

原创 【Word2vec】帮你理解Word2vec

在自然语言处理任务中,首先要将词语表示成向量的形式,这样计算机才能读懂文本。词向量在自然语言处理中有着重要的角色,它将抽象的词语之间的语义关系量化成向量形式。有了良好的词向量,我们可以使用机器学习、深度学习的模型完成更多的工作。

2023-10-19 15:37:36 200

原创 知识图谱的构建流程

为保证知识图谱质量,通常在建模时需考虑如下几个关键问题:概念划分的合理性,如何描述知识体系和知识点之间的关联关系;属性定义方式,如何在冗余度最低的条件下满足应用和可视化展示;时间、时序等复杂知识标示,通过匿名节点的方式还是边属性的方式进行描述,有何优缺点?后续的知识扩展难度,是否支持概念体系的变更和属性调整?

2023-10-19 15:10:52 241

原创 自定义块,加载和存储模型参数

在实现自定义块之前,简要总结一下每个块必须提供的基本功能。将输入数据作为其前向传播函数的参数。通过前向传播函数来生成输出。请注意,输出的形状可能与输入的形状不同。例如,模型中的第一个全连接的层接收一个20维的输入,但是返回一个维度为256的输出。计算其输出关于输入的梯度,可通过其反向传播函数进行访问。通常这是自动发生的。存储和访问前向传播计算所需的参数。根据需要初始化模型参数。# 用模型参数声明层。这里,我们声明两个全连接的层# 调用MLP的父类Module的构造函数来执行必要的初始化。

2023-10-18 19:37:07 42 1

原创 数值稳定性---梯度消失and梯度爆炸

​ sigmoid导数最大的时候也只有0.25,其余时候远小于0.25,因此如果每层的激活函数都为Logistic函数的话,很容易导致梯度消失问题,Tanh函数的导数峰值是1那也仅仅在取值为0的时候,其余时候都是小于1,因此通过链式求导之后,Tanh函数也很容易导致梯度消失。糟糕选择可能会导致我们在训练时遇到梯度爆炸或梯度消失。​ 从relu的函数特性我们知道,在小于0的时候梯度为0,大于0的时候梯度恒为1,那么此时就不会再存在梯度消失和梯度爆炸的问题了,因为每层的网络得到的梯度更新速度都一样。

2023-10-10 17:06:02 85 1

原创 权重衰减-Dropout

然而也有一些例外:一些研究人员在测试时使用暂退法,用于估计神经网络预测的“不确定性”: 如果通过许多不同的暂退法遮盖后得到的预测结果都是一致的,那么我们可以说网络发挥更稳定。比如在 图4.6.1中,删除了h2和h5, 因此输出的计算不再依赖于h2或h5,并且它们各自的梯度在执行反向传播时也会消失。现在,如果我们的权重向量增长的太大,我们的学习算法可能会更集中于最小化权重范数。这项技术通过函数与零的距离来衡量函数的复杂度,因为在所有函数f中,函数 f = 0(所有 输入都得到值0)在某种意义上是最简单的。

2023-10-08 19:56:35 123 1

原创 模型选择,欠拟合以及过拟合

泛化误差(generalization error)是指,模型应用在同样从原始样本的分布中抽取的无限多数据样本时,模型误差的期望。训练误差(training error)是指,模型在训练数据集上计算得到的误差。合适的拟合程度:泛化能力强,训练样本集准确率高,测试样本集准确率高。欠拟合:泛化能力差,训练样本集准确率低,测试样本集准确率低。过拟合:泛化能力差,训练样本集准确率高,测试样本集准确率低。功 能:指数函数(x的y次方)参数还未收敛就停止循环。

2023-10-08 17:54:05 98 1

原创 多层感知机

Fashion‐MNIST中的每个图像由 28 × 28 = 784个灰度像素值组成。所有图像共分为10个类别。忽略像素之间的空间结构,我们可以将每个图像视为具有784个输入特征和10个类的简单分类数据集。线性到非线性:在仿射变换之后对每个隐藏单元应用非线性的激活函数(activation function)σ。因为内存在硬件中的分配和寻址方式,这么做往往可以在计 算上更高效。​ 经典激活函数:ReLU ,sigmoid ,tanh。

2023-10-08 17:51:34 36 1

原创 softmax 和 交叉熵损失函数

为了解决分类问题

2023-09-24 21:21:28 60 1

原创 线性回归

定义模型,将模型的输入和参数同模型的输出关联起来或者并初始化参数或在每一步中,使用从数据集中随机抽取的一个小批量,然后根据参数计算损失的梯度。接下来,朝着减少损失的方向更新我们的参数。下面的函数实现小批量随机梯度下降更新。该函数接受模型参数集合、学习速率和批量大小作为输入。每 一步更新的大小由学习速率lr决定。因为我们计算的损失是一个批量样本的总和,所以我们用批量大小(batch_size) 来规范化步长,这样步长大小就不会取决于我们对批量大小的选择或。

2023-09-15 10:33:08 43

原创 矩阵求导,自动求导

矩阵对标量求导(Matrix-by-scalar) 如果 Y 是一个矩阵,x 是一个标量,那么 Y 对 x 的导数是一个与 Y 维度相同的矩阵,其中每个元素是 Y 中对应元素对 x 的导数。标量对矩阵求导(Scalar-by-matrix) 如果 y 是一个标量,X 是一个矩阵,那么 y 对 X 的导数是一个与 X 维度相同的矩阵,其中每个元素是 y 对 X 中对应元素的导数。y.sum().backward() x.grad # 等价于y.backward(torch.ones(len(x)))

2023-09-14 19:50:36 126 1

原创 数据预处理,线代

用向量表示物品(如单词、产品或新闻文章),以便最小化相似项目之间的距离,最大化不同项目之间 的距离。注意,A的列维数(沿轴1的长度)必须与x的维数(其长度)相同。A.sum(axis=[0,1,2])=A.sum()#在轴0,1,2上求和。按行列求和---A.sum(axis=0),B.sum(axis=1)L1范数---orch.abs(u).sum()#绝对值和。L2范数---torch.norm(u)#根下平方值和。,或许是深度学习算法最重要的组成部分(除了数据),#取字典中最大值的键。

2023-09-14 15:00:58 64 1

原创 pytorch的基础函数

makedirs---用法和语法同mkdir. 区别在于makedirs()可以创建多级目录,而mkdir()只能创建一级目录,具体图下。切片---第一个元素的索引是0,最后一个元素索引是‐1;read_csv---csv文件读取。arange---产生顺序数列。numel---访问元素数量。reshape---改变形状。tensor---形成自编辑。id()---形成初始地址。shape---访问形状。zeros---形成全零。randn---形成随机。ones---形成全一。

2023-09-13 23:08:33 45

原创 conda install 包名错误

解决方案:删除.condarc文件。

2023-03-12 20:41:12 274

原创 Anaconda Prompt 怎样切换环境,工作路径,以及怎样修改默认环境和默认路径

在win环境下安装的Anaconda,打开其提供的Anaconda Prompt窗口,默认环境为base,默认路径是你的用户名,如下图:conda activate env_name 可以切换环境E: 切换到你的指定目录的盘符cd 切换到你指定路径下,即可成功: 同样是Anaconda Prompt属性页的快捷方式栏的起始位置处,更改成你想默认打开的路径即可

2023-03-08 21:30:19 11104 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除