- 博客(10)
- 收藏
- 关注
原创 VL-BEiT:Generative Vision-Language Pretraining(生成Vision-Language预训练)
引入一个称之为VL-BEiT的vision-language基础模型,其是通过生成预训练学习到的双向多模态Transformer。这里使用一个共享Transformer对单模态和多模态数据进行masked prediction(掩盖预测)。具体地,对image-text pairs执行masked vision-language modeling,对texts执行masked language modeling,对image执行masked image modeling。......
2022-06-07 15:52:40 2071 1
原创 Vision Transformer(ViT)——PyTorch实现
架构如下:输入图片分割为16×1616 \times 1616×16的,并做操作。然后在前面添加,并和做和,之和作为全连接层的输入。生成的张量首先传递到标准,然后传递到,流程就此结束了。我们从上至下逐块实现。首先,我们需要一张图片:然后,对图片进行处理:第一步执行如下图的操作:把分割为,然后将其。这一部分对应论文中如下内容:通过完成:接着,使用标准线性层进行映射:这里通过创建类,保证代码质量和可读性。这里需要注意的是,原始作者使用的是而不是来提高性能。者通过使用和等价于。直观上,卷
2022-06-04 22:40:20 3105 1
原创 BEIT: BERT Pre-Training of Image Transformers(图像Transformer的BERT预训练)
文章目录摘要Introduction方法2.1 图像表示2.1.1 Image Patch(图像块)2.1.2 Visual Token2.2 Backbone Network:Image Transformer2.3 预训练BEiT:Masked Image Modeling2.4 From the Perspective of VAE(从VAE视角进行解释)2.5 预训练设置2.6 Fine-Tuning BEiT on Downstream Vision Tasks(下游任务微调)3 实验3.1 图像
2022-06-01 22:48:15 2870 1
原创 Node Classification with Graph Neural Networks(使用GNN进行节点分类)
文章目录Setup准备数据集处理和可视化数据集拆分数据集为分层训练集和测试集训练和评估的实现Feedforward Network(FFN)构建一个Baseline神经网络模型为baseline模型准备数据训练baseline classifier检查baseline模型预测构建图神经网络模型为图模型准备数据图卷积层的实现图神经网络节点分类训练GNN模型GNN模型预测各种机器学习应用中的许多数据集在其实体之间具有结构关系,可以表示为图。 比如社交和通信网络分析、流量预测和欺诈检测等。 图表示学习旨在为用于
2022-05-26 16:56:50 1443 1
原创 An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale——ViT
论文:https://arxiv.org/abs/2010.11929Code:https://github.com/google-research/vision_transformertimm:https://github.com/rwightman/pytorch-image-models/blob/master/timm/models/vision_transformer.pyPublish:ICLR2021
2022-05-26 12:55:58 674
原创 必读论文(1)——Attention Is All You Need
文章目录Abstract1 Introduction2 Background3 Model Architecture3.1 Encoder and Decoder Stacks3.2 Attention3.2.1 Scaled Dot-Product Attention3.2.2 Multi-Head Attention3.2.3 Applications of Attention in our Model3.3 Position-wise Feed-Forward Networks3.4 Embeddin
2022-04-01 13:21:54 1398
原创 Understanding and Implementing LeNet-5 CNN Architecture
卷积神经网络系列文章目录卷积神经网络系列前言一、INTRODUCTION二、卷积神经网络(CNN)三、LeNet-5四、LeNet-5 CNN Tensor Flow实现附录前言在这篇文章中,我们使用自定义实现的 LeNet-5 神经网络架构对 MNIST 数据集执行图像分类。一、INTRODUCTION LeNet是在1998年由Yann LeCun, Leon Bottou, Yoshua Bengio, and Patrick Haffner. 的论文Gradient-Bas
2021-08-30 12:23:12 186
原创 matplotlib实践(1)——使用函数绘制matplotlib的图标组成元素
文章目录0. 介绍1. 使用函数绘制matplotlib的图表组成元素1.1 绘制matplotlib图表组成元素的主要函数1.2 数据准备1.3 绘制`matplotlib`图表组成元素的函数1.3.1 函数`plot()`——展示变量的趋势变化1.3.2 函数`scatter()`——寻找变量之间关系1.3.3 函数`xlim()`——设置x轴的数值显示范围1.3.4 函数xlabel()——设置x轴的标签文本(y轴同)1.3.5 函数grid()——绘制刻度线网格线1.3.6 函数axhline()—
2021-05-12 23:53:59 837
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人