自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

weixin_43092343的博客

原创「ViT」An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale

对有更高解析度的下游任务图片使用2D interpolation：下游任务具有更高的 resolution 时候通常表现更好，而ViT保持与pretrained model相同大小的 patch size 时，sequence len肯定会变长，那么pos embedding失效，需要做2D 插入.Bert 里 [CLS] 加入sentence embedding 的作用是这个符号学到的表征能够表示文本的语义信息，类似的，图片处理中也加入 [CLS]，本质是一系列被切割的小图片展平，所以这个序列一共包含。.

2022-08-16 00:15:00 214

原创「BEiT」BERT Pre-Training of Image Transformers

BEiT 提出了一种自监督学习图像表征的方法，核心思想是预训练任务实现 BEiT encoder 分类预测 mask patch 的 token。思路迁移自 BERT 的 encoder 结构，图像输入处理一方面将图像转为 patch 序列（ViT) ，另一方面用固定范围的 token 代替图片像素。Stage2: 256 BPE-encoded 的文本 tokens 与 1024个图像 tokens 结合作为输入，训练一个自回归 transformer，刻画文本和图像 token 的联合概率分布。...

2022-08-15 15:32:57 999

原创 Tensorflow string tf.print和编码问题

tf.print(string) 避坑

2022-06-22 11:11:59 392

原创自监督｜「CoCLR」视频自监督对比学习笔记

CoCLR 本质是一种用 flow 网络和 RGB 网络交替采样的无监督预训练方法。

2022-04-07 16:58:19 5069 1

原创图文多模态公开数据集归纳（图文情感分类、图文检索）｜有中英文文本、含下载地址

图文多模态的公开数据集下载地址汇总～包括图文情感分类、图文分类、图文检索等

2022-03-03 11:27:47 8661 8

原创自监督｜「SimCLR」对比学习阅读笔记

SimCLR 是对比学习的奠基作之一，模型结构对称、简单又有效

2022-02-10 12:02:17 3255

原创自监督｜「NNCLR」阅读笔记

NNCLR 采用类似 SimCLR，核心变化在于数据增强得到的一对正样本中的一张去找最近邻、另一张不变，这两者计算 cross entropy

2022-01-24 17:54:07 3003

原创 tensorflow 如何计算向量余弦相似 cosine similarity

如何计算余弦相似度 cosine similarity

2022-01-20 20:49:28 2443

原创自监督｜「ResNet v1」阅读笔记

ResNet v1 用浅层学习 x，再用深层为 residual 建模

2022-01-19 14:58:27 2745

原创数理统计｜参数估计

前言学了很久的数理统计，总觉得知识在脑海中没有一个清晰的轮廓，虽然也可以自己通过纸和笔整理，但是，也想要通过新的方式，用文字的方式输出，这一想法已经在我脑海里盘旋了好久了，终于在今天开始落实。

2018-10-10 23:31:28 6375

原创三大抽样分布

基于正态分布的三大抽样分布以及正态总体的性质

2018-10-10 23:24:46 7410

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示

确定要删除当前文章？

取消删除