自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(83)
  • 收藏
  • 关注

原创 【论文笔记】CSP: Code-Switching Pre-training for Neural Machine Translation

现在预训练方法存在的问题:在现有方法中,普遍使用了人造符号“[MASK]”。而在真实数据中是不存在这样的人造符号的,这导致了预训练和微调存在差异。对跨语言的对齐信息(如果存在的话)利用不是很充分。CSP方法的简要说明:不再使用[MASK]去随机替代源语言中的词,而是使用原词在目标语言中的对应词去进行替换,仍旧让模型去预测原词是什么。第一步:创建共享词表因为要做目标语言替换,所以必须共享词表(即编码器和解码器共用词表,但不是源语言和目标语言词表的简单拼加,而是做空间映射得到的新词表)。否则任何

2022-01-25 16:26:16 1183 1

原创 【论文笔记】Pixel-BERT: Aligning Image Pixels with Text by Deep Multi-Modal Transformers

这篇文章考虑到了现在方法中存在的一个问题:视觉模态都是使用Fast-R-CNN等模型获得到的object-region特征,一般是池化层的倒数第二层作为特征(region-base feature)为什么说这是一个问题:Fast-R-CNN这些模型在训练的时候都是有特定的针对任务的(大多数是针对目标识别的),因此模型中的隐状态也都是为了服务于目标识别的,针对性很强,不具备通用化的能力(或者说在训练过程中损失了一部分的语义semantic信息)比如目标识别的模型虽然对于目标很敏感,但是对于目标

2022-01-18 20:05:07 2603

原创 【论文笔记】ERNIE-VIL: KNOWLEDGE ENHANCED VISION-LANGUAGE REPRESENTATIONS THROUGH SCENE GRAPH

本文强调的点是语义对齐(semantics alignment),并且将VL任务划分为了三个部分,即识别图中的对象、属性、关系。本文利用了ERNIE的知识掩蔽策略,即每次掩蔽整个短语或实体而不是子词(sub-word),这样做的优势是可以获取更具结构性的知识。这种方法与传统掩蔽的区别:1.传统掩蔽的单位是子词,是破碎的没有结构性知识的。2.传统掩蔽遵从完全的随机选择方式,对句子中的所有词一视同仁,但是实际上句子中的词也是有主次之分的(对象、属性、关系三类词是更为重要的)本文中利用到了一种叫场景图片剖.

2022-01-18 16:39:10 497

原创 【论文笔记】ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for VL Tasks

单流模型的缺点First, initial clustering may result in discretization error and lose important visual details.Second, it treats inputs from both modalities identically, ignoring that they may need different levels of processing due to either their inherent comp

2022-01-11 22:02:33 1679

原创 【论文笔记】VISUALBERT: A SIMPLE AND PERFORMANT BASELINE FOR VISION AND LANGUAGE

VisualBert : 适用很多种类的任务,结构简单和VL-Bert的区别:由token-enbedding和feature-embedding共同组成了一个embedding层position编码层被用于进行对齐

2022-01-10 16:01:07 782

原创 Oscar-实验过程记录

下载实验源码https://github.com/microsoft/Oscar服务器安装azcopy给的都是azcopy的方式(第一次用),先安装azcopywget -O azcopy.tar.gz https://aka.ms/downloadazcopy-v10-linux (服务器没通过,似乎是安全问题)https://docs.microsoft.com/zh-cn/azure/storage/common/storage-use-azcopy-v10#download-azcopy

2022-01-06 13:56:54 1970 3

原创 随机过程复习

定理???定理4-4例题4-1定理4-5(知道结论)例题4-2(理发店)例题4-4

2022-01-04 00:04:46 1865

原创 【论文笔记】VL-BERT: PRE-TRAINING OF GENERIC VISUAL- LINGUISTIC REPRESENTATIONS

For tasks at the intersection of vision and language, there lacks such pre-trained generic feature representations.motivation:这篇文章和unified的思想很接近,希望训练出能够适应各类下游任务的通用表示模型。简介

2021-12-28 15:57:06 858

原创 【论文笔记】Unified Vision-Language Pre-Training for Image Captioning and VQA

This paper presents a unified Vision-Language Pre-training (VLP) model. The model is unified in that(1) it can be fine-tuned for either vision-language generation (e.g., image captioning) or understanding (e.g., visual question answering) tasks(2) it us.

2021-12-27 15:56:38 1140 1

原创 【论文笔记】Oscar Object-Semantics Aligned Pre-training for Vision-Language Tasks

Our method is motivated by the observation that the salient objects in an image can be accurately detected, and are often mentioned in the paired text.motivation : 图片中比较重要(salient 突出)的地方是能够精确检测到的。而且这一部分往往会出现在配对的文本数据里。For example, on the MS COCO datase.

2021-12-24 21:35:00 912

原创 【论文笔记】Unicoder: A Universal Language Encoder by Pre-training with Multiple Cross-lingual Tasks

We present Unicoder, a universal language encoder that is insensitive to different languages. Given an arbitrary NLP task, a model can be trained with Unicoder using training data in one language and directly applied to inputs of the same task in other la.

2021-12-22 16:18:30 863

原创 【论文笔记】LXMERT: Learning Cross-Modality Encoder Representations from Transformers

Vision-and-language reasoning requires an understanding of visual concepts, language semantics, and, most importantly, the alignment and relationships between these two modalities.做视觉文本的理解任务,需要模型能理解视觉概念和文本语义信息,但最重要的是视觉和文本的对齐问题。数据库:VQA GQA NLVR.

2021-12-21 20:31:07 992

原创 【论文笔记】Fusion of Detected Objects in Text for Visual Question Answering

简介In this paper, we consider visual context in addition to language and show that the right integration of visual and linguistic information can yield improvements in visual question answering..The more general question we address in the context of thi

2021-12-18 22:13:18 372

原创 【论文笔记】A Bayesian Method for the Induction of Probabilistic Networks from Data

这篇属于加餐,机器学习课的作业。是1992年的上古文章,应该就是GBN(Gaussian Bayesian Network)的最先提出文章。(具体是不是我也不确定,要等看完才能知道,大概是的。)唉,这种上古文章读起来费劲啊。。。简介目标任务类型:每个case代标一条数据absent=0,present=1问题:x1和x3是否有直接相关的关系?问题:如果给定x1,那么x3=1的概率是多少?针对这样的问题,是没有绝对正确的答案的。答案的影响影响因素有很多,比如模型、数据等。GBN方

2021-11-16 16:41:48 934

原创 Opencl开发过程记录

下载Eclipse给Eclips安装插件ADT配置SDK手动下载NDK并添加到Eclipse设置中新建Eclipse项目解决依赖问题(未作具体记录)无法解决问题更改使用Android Studio配置SDK配置NKD过程中发生问题SDK Manager中忆境添加NDK和CMAKE工具在Project Structure中无法添加NDK(灰色,无法点击)尝试网络上的方法SKD和NDK下载地址:https://www.androiddevtools.cn/index.html参

2021-11-04 17:18:03 1744 5

原创 【论文笔记】Supervised Attentions for Neural Machine Translation

2016年的文章,还是在attention机制上的改进。核心思路“监督”:计算注意力和真实对齐情况的举例,并将其作为模型损失进行训练简介 IntroduceGiven the alignments of all the training sentence pairs, we add an alignment distance cost to the objective function.经典注意力模型(四刷了,每次都不一样)对齐模块Given an alignment matrix A

2021-11-02 17:37:46 287

原创 【论文笔记】Improving Attention Modeling with Implicit Distortion and Fertility for Machine Translation

2016年的文章,此时注意力机制已经诞生一年,并且产生多种变种。本文所提出的方法,进一步提高了注意力机制的对齐效果和翻译质量(借鉴了传统SMT的畸变模型和繁衍度模型,我对此是完全不了解的)简介 IntroduceWithout a distortion model, the generated alignment sometimes contains incorrect word reordering and as a result the meaning of the sentence coul

2021-11-01 20:30:08 158

原创 【论文笔记】Effective Approaches to Attention-based Neural Machine Translation

这篇文章发布2015年,关于Attention的应用。现在看来可能价值没那么大了,但是由于没读过还是要读一遍。简介 IntroduceIn parallel, the concept of “attention” has gained popularity recently in training neural networks, allowing models to learn alignments between different modalities, e.g., between image

2021-10-31 19:27:57 382

原创 [学习日志]深度自然语言处理 卷积神经网络&文本分类

文本分类比如情感分类、垃圾右键、文章主题分类情感分类 - 词袋模型情感分类 - 连续词袋模型以词向量代替0/1卷积神经网络卷积

2021-10-19 20:11:12 96

原创 【论文笔记】Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods in NLP

摘要Unlike traditional supervised learning, which trains a model to take in an input x and predict an output y as P(y|x), prompt-based learning is based on language models that model the probability of text directly. To use these models to perform predicti

2021-10-19 16:23:47 6099

原创 【算法设计】习题记录

1.过生日问题,从某年开始过生日,每年吹和年龄相等的蜡烛,目前已经吹了236根蜡烛,问是从多少岁开始?2.天平问题3.19(x)95 知道此数是57和67的倍数4.1(x)(x)(x)(x) 知道此数是57和67的倍数5.百钱买百鸡问题6.ABCAB * A = DDDDDD 求ABCABDDDDDD/A就可以7.1234567891011121314151617的第n位数字8.X Y 最小公倍数 最大公约数9.递增序列查找(二分法)10.割绳子 M条绳子割成N段等长的绳子 最长的分割方

2021-09-17 21:48:31 87

原创 【论文笔记】TinyBERT: Distilling BERT for Natural Language Understanding

To accelerate inference and reduce model size while maintaining accuracy, we first propose a novel Transformer distillation method that is specially designed for knowledge distillation (KD) of the Transformer-based models. Then, we introduce a new two-sta.

2021-09-16 11:25:13 362

原创 【数学复习】2020年试卷解题

微积分部分1. 可微-连续可微(导)一定连续,连续不一定可微(导)。所以此题:是2.级数收敛问题级数是指将数列的项依次用加号连接起来的函数。判断收敛的步骤:证明当 n→+∞ 时,级数的一般项收敛于零证明级数是正项级数(即每项都是正数)另找一个收敛的级数,证明当前级数的项比他小,则当前级数收敛另找一个发散的级数,证明当前级数的项比他大,则当前级数发散此题中,当前级数与1/n+1对比,可得当前级数发散。3. 计算序列极限此题显然是1/24. 计算函数极限利用函数的连续

2021-09-14 19:33:00 782

原创 【论文笔记】Distilling the Knowledge in a Neural Network

Many insects have a larval form that is optimized for extracting energy and nutrients from the environment and a completely different adult form that is optimized for the very different requirements of traveling and reproduction.许多昆虫的幼虫形态是为了从环境中提取能量和营养而.

2021-09-14 16:37:08 350 1

原创 【论文笔记】How Much Does Tokenization Affect Neural Machine Translation?

这篇是2018年的文章,主要讲的tokenization,即各类对数据处理的方式。Tokenization比较好的中文翻译是词语切分,这是一个很宽泛的概念,其中包含众多方法。简单的方法比如将标点和词中间加空格(多见于英文),复杂的方法需要应用到形态学的内容(比如复数、变形等)。而这些tokenization的方法目的,一般都是缩减词表。比如一个动词的原型组合一些形态相关的子词(subword)就可以表示各种时态。此外,随着切分后的词表缩小,词的出现频率也会相应增加(各种形态都算同一个词),这也有助于模

2021-08-13 16:04:24 117

原创 【论文笔记】Neural Machine Translation by Jointly Learning to Align and Translate

这篇文章发表于2014年,是attention机制的起源文章。应该也是最近看的几篇文章中,难度最高的一篇。背景介绍文章发表时NMT已经兴起,基于encoder-decoder架构的神经网络模型已经成为当时的标准配置(但是似乎当时效果最好的翻译模型还是基于统计的)Encoder-Decoder架构的问题encoder的工作是将源语言的句子表示为一个固定长度的向量;decoder的工作是根据此向量进行语言生成。这中间有一个隐藏的问题:将整个源句子压缩为一个长度固定的向量,必然会导致信息的损失,尤

2021-08-02 20:09:33 360

原创 【论文笔记】BLEU: a Method for Automatic Evaluation of Machine Translation

BLEU的意义在计算语言学的研究实验中,研究者希望能实时对机器翻译的质量进行评估(可能每天甚至没几个小时进行一次),而人工翻译评估是无法满足这一需求的,因此机器翻译研究受到了这一瓶颈的限制,难以有所突破。BLEU作为一种自动翻译评估方法,目的是解决这一问题。BLEU的全拼(Bilingual Evaluation Understudy)BLUE原理核心思想:机器翻译和人工翻译的越接近越好实现方法:定义数字量化“接近度”的方法必须条件:质量优秀的人工翻译语料库举例一:n-gram匹配

2021-08-02 15:50:19 923

原创 【论文笔记】Sequence to Sequence Learning with Neural Networks

这是2014年的一篇文章,彼时深度学习技术刚刚问世不久,仅在一些简单的任务中应用(这些问题的输入和输出能直接转化为向量)。这篇文章介绍了将深度神经网络应用到序列任务中的方法(LSTM),并说到了(也可能是提出了)encoder-decoder的模型架构。读文章的时候可以看到,当时的主流方法还是SMT,而深度学习一般依托于SMT或致力于优化SMT。深度神经网络为什么难以应用到Seq2Seq深度神经网络的输入和输出维度必须是固定的(事先设置好的)序列任务的序列长度是不固定且未知的解决方法:RNN

2021-07-31 16:08:22 447

原创 【论文笔记】Machine Transliteration 机器音译

这是一篇1992年的文章,提出了一种生成式模型用以解决人名和术语的(双向)音译问题。甚至包含了图像识别、语音、翻译等多个领域的内容。音译词翻译为什么重要音译词一般是专有名词,而专有名词往往是未登录词,提升对于音译词的翻译能力,能改善翻译水平。音译词翻译为什么困难不同语言有不同的发音习惯,在音译时会对词的读音做出改变在音译过程中做的改变会导致信息损失,使得回译更加困难音译规则并不统一,有一对多和缩写等特殊情况解决方法:又是概率和贝叶斯音译的过程可以分解为下面几步:使用概率表示各个步

2021-07-30 19:41:34 320

原创 【论文笔记】A STATISTICAL APPROACH TO MACHINE TRANSLATION

这是一篇90年代关于机器翻译的论文,作为一名初学者,怀着考古和朝圣的心记下了这篇笔记。来自90年代的思考Although researchers quickly abandoned this approach, advancing numerous theoretical objections, we believe that the true obstacles lay in the relative impotence of the available computers and the dear

2021-07-30 14:33:53 185

原创 【权重蒸馏】Weight Distillation: Transferring the Knowledge in Neural Network Parameters

知识蒸馏的局限学生网络仅关注教师网络的预测结果,而没有充分利用到教师网络中的参数,相对而言粗糙且宽泛。权重蒸馏有多厉害在相同的数据集上,效果提升0.51-1.82个BLEU,速度提升1.11-1.39倍。权重蒸馏是什么简单来说:利用教师网络中的一部分参数作为学生网络参数的初始值具体做法:因为教师网络和学生网络的结构不同,矩阵形状不同,因此不能直接迁移参数,而是通过参数生成器(Parameter Generator)对教师参数进行处理。然后再转移到学生网络中。参数生成器(Parameter Ge

2021-07-23 17:14:12 680

原创 [学习日志]使用pytorch 和 bert 实现一个简单的文本分类任务

任务简介

2021-03-30 20:44:02 3129 6

原创 [学习日志]pytorch-统计属性

范数有几种常见的范数,参考:https://blog.csdn.net/left_la/article/details/9159949import torcha = torch.full([8], 1.)b = a.view([2, 4])c = a.view([2, 2, 2])print(b)# tensor([[1, 1, 1, 1],# [1, 1, 1, 1]])print(c)# tensor([[[1, 1],# [1, 1]],

2021-03-26 19:55:25 72

原创 [学习日志]pytorch-张量运算

加减乘除四个运算符已经重载了:+ - * /也有对应的函数:torch.add torch.sub torch.mul torch.div矩阵乘法 matmul @import torcha = torch.Tensor([[1, 2], [3, 4]])b = torch.Tensor([[5, 6], [7, 8]])print(a*b)#tensor([[ 5., 12.],# [21., 32.]])print(torch.matmul(a,b))

2021-03-26 18:50:45 114

原创 [学习日志]Pytorch-维度变换

改变形状 Viewimport torcha = torch.Tensor(4, 1, 28, 28)b = a.view(4, 1*28*28)print(a.shape)#torch.Size([4, 1, 28, 28])print(b.shape)#torch.Size([4, 784])view的功能是返回一个符合形状的新tensor,而不改变原来张量使用view改变形状的前提是:改变前后元素个数不变维度增加\减少 Squeeze & Unsqueeze增

2021-03-26 16:54:12 209

原创 [学习日志]Pytorch-索引与切片

[]索引import torcha = torch.Tensor(4, 3, 28, 28)print(a.shape)#torch.Size([4, 3, 28, 28])print(a[0].shape)#torch.Size([3, 28, 28])print(a[0][0].shape)#torch.Size([28, 28])print(a[0][0][0][0])#tensor(1.4349e-42):索引import torcha = torch.Ten

2021-03-26 14:32:57 91

原创 [学习日志]Pytorch-创建tensor

因为之前一直学习的都是理论知识,虽然刷了有好几遍,但是总感觉没有实践支持还是差了很多。正好做毕设也要用到,就好好学一下pytorch框架,为了加深印象,做了这个帖子。从numpy创建import numpy as npimport torcha = np.array([2, 3.3])a_troch = torch.from_numpy(a)print(a_troch)##tensor([2.0000, 3.3000], dtype=torch.float64)b = np.ones(

2021-03-25 20:43:08 107

原创 [学习日志]深度学习-李宏毅 迁移学习

两种迁移相同的任务,不同的领域相同的领域,不同的任务迁移学习的概念所谓迁移学习,是很多种方法的集合。你可以说某一种方法是迁移学习,或者不是。这里根据源领域和目标领域的数据是否标注,可以大致分为四类:源领域有标注,目标领域有标注源领域无标注,目标领域有标注源领域有标注,目标领域无标注源领域无标注,目标领域无标注源领域有标注,目标领域有标注 fine-tuning一般而言源领域的标注数据量会比较大,目标领域的标注数据量会比较小。(当目标领域的数据非常少的时候,可以说是在做OneS

2021-03-25 10:53:43 359 2

原创 [学习日志]白板推导-条件随机场 CRF Conditional Random Field

背景介绍软分类&硬分类硬分类:给每一个待分类样本都明确的分配到一个类别,比如SVM就是画一条线泾渭分明。软分类:给每一个待分类样本都计算其属于各个类别的概率,比如朴素贝叶斯就是计算一个条件概率硬分类举例SVM 支持向量机PLA 感知机LDA 线性判别分析软分类举例概率判别模型比如逻辑回归分类,计算条件概率P(Y|X)注:逻辑回归可以看作是最大熵模型的特例,至于最大熵模型是啥就以后再补吧概率生成模型比如朴素贝叶斯分类,计算联合概率P(X,Y)并通过贝叶斯公式求条件概率注

2021-03-22 19:46:04 412 2

原创 [学习日志] 白板推导-概率图模型

背景介绍随机变量的基础知识对于多元随机变量X1,X2P(X1)叫做边缘概率P(X1,X2)叫做联合概率P(X1|X2)叫做条件概率加法法则乘法法则(以上两个法则是最基础的,其他都来源于此)链式法则贝叶斯法则圈红的部分是以前语言模型常用的公式后面是更细致的展开成积分形式高维困境以上都是以二维为例子,在高维中计算就会变复杂几种简化方式假设相互独立朴素贝叶斯分类——基于独立假设马尔可夫链全都独立有点太过理想化,实际应用往往不满足马尔可夫链的思路就是,某一事件的

2021-03-21 20:30:43 520

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除