自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(20)
  • 收藏
  • 关注

原创 【多模态论文】CLIP(Contrastive Language-Image Pre-training)

对预定的类别进行预测,这种有监督的训练形式受限于额外标记数据。如何利用图像的原始文本来获取广泛的监督数据?预训练的优势:Task-agnostic objectives使得在计算、模型容量和数据方面可以扩大几个数量级,能力有大幅提高。LP中的大规模无监督训练数据训练,而CV全部都是人工标注数据集,使用自然语言监督的方法进行图像表示学习很少见。CV模型只能预测已知的图像类别,本文利用图像对应的文本数据,可能可以分辨未见类别的图像。在CV中加入自然语言数据实际结果不够好的原因归结于数据规模不够大。

2024-06-20 20:11:43 585

原创 【多模态论文】BLIP-2

Motivation:近些年Vision-language pre-training (VLP) 飞速发展,越来越多更大的预训练模型涌现不断更新各种下游任务的sota结果。但是这些模型需要很高的计算成本,包括大规模的预训练数据和模型结构。核心问题:cross-modal alignment,并且文中认为Flamingo的image-to-text generation loss不足以bridge the modality gap。

2024-04-25 21:23:07 975 1

原创 【视觉论文】VIT - Vision Transformers

出发点:因为Transformer计算效率和可扩展性,逐渐在自然语言任务上成为主流,但在视觉领域的应用有限。基本都是与卷积结合使用或者替换卷积网络中的某些组件,并没有从整体上改变网络架构。方案:Pre-train and transfer实现很简单,按照原文精简表达出来就是:patcheswhy pre-train:在ImageNet等中等大小的数据集上,效果不如同等大小的ResNet。

2024-04-23 16:48:13 823

原创 【多模态检索】Coarse-to-Fine Visual Representation

近些年,基于CLIP的text-to-video检索方法广为流行,但大多从视觉文本对齐方法上演进。按照原文:design afor sentence (words)-video (frames) interaction,而忽视了复杂度和检索效率。升级点本文采用多粒度视觉特征学习,捕获从抽象到具体的视觉内容。设计两阶段检索框架,优点在于balancesthe。

2024-04-16 18:16:48 1069

原创 阿里面经-达摩院自然语言处理实习生(已拿到意向书)

最近有很多同学问我面试细节,整理一波面经供大家参考,希望大家能有所收获。稍后会给大家整理笔试题题目和代码。自我情况:本人北京某研究所研二学生,主要研究方向为:nlp-文本生成。三篇在投论文,其中一篇一作。面试过程:2020.04.09 师兄内推,投递简历2020.04.13 在线笔试(官网有不同时间场次的笔试,可自行选择),两道算法题一个小时时间。我做的两道题一个是投票问题,一个是最短路径问题。最终只 AC 了第一道,因为读错题花费了太多时间,第二道来不及做完,但代码写的差不多。稍后会

2020-05-27 10:59:44 1747

原创 argparse 中 add_argument()、parse_args() 参数解析及用法

在 python 编写的程序中,我们经常会看到一片的 argparse 相关代码,而它究竟怎么使用呢?接下来,我们将以例子详细学习它。argparse是什么?argparse 是一个__命令行参数解析__模块。可以轻松编写用户友好的命令行接口,在程序中定义需要的参数,然后 argparse 将弄清如何从 sys.argv 解析出那些参数。argparse 还会自动生成帮助和使用手册,...

2020-02-06 17:09:08 10249

原创 vim 多文档/窗口操作,切换文档

vim多文件操作,分屏,打开多个文件以及多文件切换Linux 文件编辑中,经常会使用 vim,熟练以后确实非常高效便捷。但是好久不用又都忘记了/(ㄒoㄒ)/~~,所以用到什么就记下来,方便之后查阅。一、vim文档基本操作vim file_name则为使用 vim 编辑器打开文件,若该文件名存在则打开,否则创建新文件。二、打开多文件1) 在vim启动前,可直接打开任意多个文件:vim f...

2020-01-31 12:46:53 822

原创 指定GPU并且指定端口启动tensorboard

Tensorboard是tensorflow内置的一个可视化工具,它通过将tensorflow程序输出的日志文件的信息可视化使得tensorflow程序的理解、调试和优化更加简单高效。Tensorboard的可视化依赖于tensorflow程序运行输出的日志文件,因而tensorboard和tensorflow程序在不同的进程中运行。一、启动 tensorboardtensorboard ...

2019-11-15 10:07:44 10487

原创 fatal: unable to access '': Could not resolve host: github.com - git clone失败

今天在服务器使用git clone命令时报错:Cloning into 'GLACNet'...fatal: unable to access 'https://github.com/tkim-snu/GLACNet.git/': Could not resolve host: github.com然后执行命令ping github.com,也失败了:ping: unknown host...

2019-11-15 09:57:48 2735

原创 rouge 及 pyrouge 安装、配置和使用

在文本摘要领域,经常使用的评测标准即为 pyrouge ,几经尝试,终于安装成功,走了不少弯路,在此总结一下。首先一定要耐心,根据步骤一步一步来,胜利就在前方!1. 安装 perl一般 Mac 和 Linux 都有自带的 perl,使用 perl -v检查其版本, 若版本较低可先升级 perl。2. 安装 XML::DOM使用 cpanm 安装 perl 模块,没有的话先 brew in...

2019-10-22 18:38:30 4337 3

原创 VSCODE使用Remote-SSH连接远程服务器并调试

一、安装Remote-SSH工具包VSCode推出了一系列远程工具包,我用到的主要是下图这个:在扩展中搜索 ssh 就可以看到,直接点 install 就可以了。如果没有左侧边栏,可以点击顶部菜单栏:查看 -> 外观 -> 显示活动栏安装成功后会在活动栏显示远程资源管理器的图标,如下图:二、连接服务器进入远程资源管理器界面,点 “+” 添加服务器,输入 username@...

2019-10-12 15:32:29 8680 1

原创 PyTorch中的view()函数用法示例及其参数详解

最近使用PyTorch编写程序,经常会遇到tensor_data.contiguous().view(-1),以此记录下其用法。view()函数用法示例及其参数详解首先,view( ) 是对 PyTorch 中的 Tensor 操作的,若非 Tensor 类型,可使用 data = torch.tensor(data)来进行转换。(1) 作用:该函数返回一个有__相同数据__但不同大小的...

2019-10-11 15:27:04 17667

原创 python函数定义、参数使用、匿名函数以及函数闭包(函数嵌套)的简单理解

最近遇到了函数闭包(函数嵌套)使用,但是不是很懂调用过程,参考资料以后,进行了如下总结(顺便将python基础函数相关知识进行了复习和总结)。一、python函数定义使用"def"关键字,后接函数名与括号"()",注意末尾":""[]“表示可以省略,参数由”,"分隔,可以省略return表示返回值给调用者,可省略,表示返回Nonedef function_name([param1,...

2019-09-05 21:30:18 436

原创 【多模态】BEiT V3:Image as a Foreign Language: BEIT Pretraining for All Vision and Vision-Language Tasks

论文:Image as a Foreign Language: BEIT Pretraining for All Vision and Vision-Language Tasks链接:https://arxiv.org/pdf/2208.10442。

2024-06-27 20:52:12 506

原创 【多模态】BEiT v2

链接:https://arxiv.org/pdf/2208.06366论文:BEIT V2: Masked Image Modeling with Vector-Quantized Visual Tokenizers。

2024-06-26 18:38:49 596

原创 【多模态】BEIT: BERT Pre-Training of Image Transformers

论文:BEIT: BERT Pre-Training of Image Transformers链接:https://arxiv.org/pdf/2301.00184。

2024-06-24 19:53:48 1148

原创 Anaconda 环境的创建、激活、删除与管理

Anaconda 我们已经很熟悉,它能够创建虚拟环境,便于使用不同版本的办公环境。而 conda 是包及其依赖项和环境的管理工具,它可以快速安装、运行和升级包及其依赖项。环境的安装可以参考 链接。本节主要介绍其使用:一、环境创建conda create -n myenv python=3.6其中 myenv 是你创建虚拟环境的名字, python= 对应你需要的 python 版本。二...

2019-12-12 10:00:15 318

原创 Anaconda 在centos7中的安装使用

安装环境对我而言可太难了,每次不是遇到这个问题就是那个问题,所以以后每安装一个,都做一下记录。一、下载网上很多教程让你使用镜像下载,这样:wget https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/Anaconda3-2019.03-Linux-x86_64.sh 然后,我就报错了:wget: unable to resol...

2019-11-28 11:34:05 764

原创 SCP-跨机远程文件拷贝

废话不多说,拷贝远程文件至本机的常用格式为:scp -r username@host:源目录 本机目标目录-r 表示递归复制所有文件及文件夹。更详细的解释和其他用法如下。一、简介scp 是 secure copy 的缩写,主要用于在Linux环境下 远程拷贝 文件。我们常用 cp 命令拷贝文件,但其只能在本机运行。scp 的传输是 加密 的。二、命令格式scp [可选参数] ...

2019-10-12 17:11:52 452

原创 PyTorch入门教程

最近在学习PyTorch,网上资料有些杂乱,进行了稍许整理,望能有所助益。PyTorch简介Torch是 PyTorch的前身,其底层语言相同,但使用不同的上层包装语言。Torch是一个支持大量机器学习算法的科学计算框架。PyTorch是基于Torch的python开源机器学习库,由FaceBook人工智能小组开发。为什么PyTorch?不仅能够实现强大的GPU加速,同时还...

2019-08-30 12:00:47 396 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除