烫烫烫烫的若愚-CSDN博客

原创【论文笔记】CSP: Code-Switching Pre-training for Neural Machine Translation

现在预训练方法存在的问题：在现有方法中，普遍使用了人造符号“[MASK]”。而在真实数据中是不存在这样的人造符号的，这导致了预训练和微调存在差异。对跨语言的对齐信息（如果存在的话）利用不是很充分。CSP方法的简要说明：不再使用[MASK]去随机替代源语言中的词，而是使用原词在目标语言中的对应词去进行替换，仍旧让模型去预测原词是什么。第一步：创建共享词表因为要做目标语言替换，所以必须共享词表（即编码器和解码器共用词表，但不是源语言和目标语言词表的简单拼加，而是做空间映射得到的新词表）。否则任何

2022-01-25 16:26:16 1183 1

原创【论文笔记】Pixel-BERT: Aligning Image Pixels with Text by Deep Multi-Modal Transformers

这篇文章考虑到了现在方法中存在的一个问题：视觉模态都是使用Fast-R-CNN等模型获得到的object-region特征，一般是池化层的倒数第二层作为特征（region-base feature）为什么说这是一个问题：Fast-R-CNN这些模型在训练的时候都是有特定的针对任务的（大多数是针对目标识别的），因此模型中的隐状态也都是为了服务于目标识别的，针对性很强，不具备通用化的能力（或者说在训练过程中损失了一部分的语义semantic信息）比如目标识别的模型虽然对于目标很敏感，但是对于目标

2022-01-18 20:05:07 2603

原创【论文笔记】ERNIE-VIL: KNOWLEDGE ENHANCED VISION-LANGUAGE REPRESENTATIONS THROUGH SCENE GRAPH

本文强调的点是语义对齐（semantics alignment），并且将VL任务划分为了三个部分，即识别图中的对象、属性、关系。本文利用了ERNIE的知识掩蔽策略，即每次掩蔽整个短语或实体而不是子词（sub-word），这样做的优势是可以获取更具结构性的知识。这种方法与传统掩蔽的区别：1.传统掩蔽的单位是子词，是破碎的没有结构性知识的。2.传统掩蔽遵从完全的随机选择方式，对句子中的所有词一视同仁，但是实际上句子中的词也是有主次之分的（对象、属性、关系三类词是更为重要的）本文中利用到了一种叫场景图片剖.

2022-01-18 16:39:10 497

原创【论文笔记】ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for VL Tasks

单流模型的缺点First, initial clustering may result in discretization error and lose important visual details.Second, it treats inputs from both modalities identically, ignoring that they may need different levels of processing due to either their inherent comp

2022-01-11 22:02:33 1679

原创【论文笔记】VISUALBERT: A SIMPLE AND PERFORMANT BASELINE FOR VISION AND LANGUAGE

VisualBert ：适用很多种类的任务，结构简单和VL-Bert的区别：由token-enbedding和feature-embedding共同组成了一个embedding层position编码层被用于进行对齐

2022-01-10 16:01:07 782

原创 Oscar-实验过程记录

下载实验源码https://github.com/microsoft/Oscar服务器安装azcopy给的都是azcopy的方式（第一次用），先安装azcopywget -O azcopy.tar.gz https://aka.ms/downloadazcopy-v10-linux （服务器没通过，似乎是安全问题）https://docs.microsoft.com/zh-cn/azure/storage/common/storage-use-azcopy-v10#download-azcopy

2022-01-06 13:56:54 1970 3

原创随机过程复习

定理？？？定理4-4例题4-1定理4-5（知道结论）例题4-2（理发店）例题4-4

2022-01-04 00:04:46 1865

原创【论文笔记】VL-BERT: PRE-TRAINING OF GENERIC VISUAL- LINGUISTIC REPRESENTATIONS

For tasks at the intersection of vision and language, there lacks such pre-trained generic feature representations.motivation：这篇文章和unified的思想很接近，希望训练出能够适应各类下游任务的通用表示模型。简介

2021-12-28 15:57:06 858

原创【论文笔记】Unified Vision-Language Pre-Training for Image Captioning and VQA

This paper presents a unified Vision-Language Pre-training (VLP) model. The model is unified in that(1) it can be fine-tuned for either vision-language generation (e.g., image captioning) or understanding (e.g., visual question answering) tasks(2) it us.

2021-12-27 15:56:38 1140 1

原创【论文笔记】Oscar Object-Semantics Aligned Pre-training for Vision-Language Tasks

Our method is motivated by the observation that the salient objects in an image can be accurately detected, and are often mentioned in the paired text.motivation : 图片中比较重要（salient 突出）的地方是能够精确检测到的。而且这一部分往往会出现在配对的文本数据里。For example, on the MS COCO datase.

2021-12-24 21:35:00 912

原创【论文笔记】Unicoder: A Universal Language Encoder by Pre-training with Multiple Cross-lingual Tasks

We present Unicoder, a universal language encoder that is insensitive to different languages. Given an arbitrary NLP task, a model can be trained with Unicoder using training data in one language and directly applied to inputs of the same task in other la.

2021-12-22 16:18:30 863

原创【论文笔记】LXMERT: Learning Cross-Modality Encoder Representations from Transformers

Vision-and-language reasoning requires an understanding of visual concepts, language semantics, and, most importantly, the alignment and relationships between these two modalities.做视觉文本的理解任务，需要模型能理解视觉概念和文本语义信息，但最重要的是视觉和文本的对齐问题。数据库：VQA GQA NLVR.

2021-12-21 20:31:07 992

原创【论文笔记】Fusion of Detected Objects in Text for Visual Question Answering

简介In this paper, we consider visual context in addition to language and show that the right integration of visual and linguistic information can yield improvements in visual question answering..The more general question we address in the context of thi

2021-12-18 22:13:18 372

原创【论文笔记】A Bayesian Method for the Induction of Probabilistic Networks from Data

这篇属于加餐，机器学习课的作业。是1992年的上古文章，应该就是GBN（Gaussian Bayesian Network）的最先提出文章。（具体是不是我也不确定，要等看完才能知道，大概是的。）唉，这种上古文章读起来费劲啊。。。简介目标任务类型：每个case代标一条数据absent=0，present=1问题：x1和x3是否有直接相关的关系？问题：如果给定x1，那么x3=1的概率是多少？针对这样的问题，是没有绝对正确的答案的。答案的影响影响因素有很多，比如模型、数据等。GBN方

2021-11-16 16:41:48 934

原创 Opencl开发过程记录

下载Eclipse给Eclips安装插件ADT配置SDK手动下载NDK并添加到Eclipse设置中新建Eclipse项目解决依赖问题（未作具体记录）无法解决问题更改使用Android Studio配置SDK配置NKD过程中发生问题SDK Manager中忆境添加NDK和CMAKE工具在Project Structure中无法添加NDK（灰色，无法点击）尝试网络上的方法SKD和NDK下载地址：https://www.androiddevtools.cn/index.html参

2021-11-04 17:18:03 1744 5

原创【论文笔记】Supervised Attentions for Neural Machine Translation

2016年的文章，还是在attention机制上的改进。核心思路“监督”：计算注意力和真实对齐情况的举例，并将其作为模型损失进行训练简介 IntroduceGiven the alignments of all the training sentence pairs, we add an alignment distance cost to the objective function.经典注意力模型（四刷了，每次都不一样）对齐模块Given an alignment matrix A

2021-11-02 17:37:46 287

原创【论文笔记】Improving Attention Modeling with Implicit Distortion and Fertility for Machine Translation

2016年的文章，此时注意力机制已经诞生一年，并且产生多种变种。本文所提出的方法，进一步提高了注意力机制的对齐效果和翻译质量（借鉴了传统SMT的畸变模型和繁衍度模型，我对此是完全不了解的）简介 IntroduceWithout a distortion model, the generated alignment sometimes contains incorrect word reordering and as a result the meaning of the sentence coul

2021-11-01 20:30:08 158

原创【论文笔记】Effective Approaches to Attention-based Neural Machine Translation

这篇文章发布2015年，关于Attention的应用。现在看来可能价值没那么大了，但是由于没读过还是要读一遍。简介 IntroduceIn parallel, the concept of “attention” has gained popularity recently in training neural networks, allowing models to learn alignments between different modalities, e.g., between image

2021-10-31 19:27:57 382

原创 [学习日志]深度自然语言处理卷积神经网络&文本分类

文本分类比如情感分类、垃圾右键、文章主题分类情感分类 - 词袋模型情感分类 - 连续词袋模型以词向量代替0/1卷积神经网络卷积

2021-10-19 20:11:12 96

原创【论文笔记】Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods in NLP

摘要Unlike traditional supervised learning, which trains a model to take in an input x and predict an output y as P(y|x), prompt-based learning is based on language models that model the probability of text directly. To use these models to perform predicti

2021-10-19 16:23:47 6099

原创【算法设计】习题记录

1.过生日问题，从某年开始过生日，每年吹和年龄相等的蜡烛，目前已经吹了236根蜡烛，问是从多少岁开始？2.天平问题3.19(x)95 知道此数是57和67的倍数4.1(x)(x)(x)(x) 知道此数是57和67的倍数5.百钱买百鸡问题6.ABCAB * A = DDDDDD 求ABCABDDDDDD/A就可以7.1234567891011121314151617的第n位数字8.X Y 最小公倍数最大公约数9.递增序列查找（二分法）10.割绳子 M条绳子割成N段等长的绳子最长的分割方

2021-09-17 21:48:31 87

原创【论文笔记】TinyBERT: Distilling BERT for Natural Language Understanding

To accelerate inference and reduce model size while maintaining accuracy, we first propose a novel Transformer distillation method that is specially designed for knowledge distillation (KD) of the Transformer-based models. Then, we introduce a new two-sta.

2021-09-16 11:25:13 362

原创【数学复习】2020年试卷解题

微积分部分1. 可微-连续可微（导）一定连续，连续不一定可微（导）。所以此题：是2.级数收敛问题级数是指将数列的项依次用加号连接起来的函数。判断收敛的步骤：证明当 n→+∞ 时，级数的一般项收敛于零证明级数是正项级数（即每项都是正数）另找一个收敛的级数，证明当前级数的项比他小,则当前级数收敛另找一个发散的级数，证明当前级数的项比他大，则当前级数发散此题中，当前级数与1/n+1对比，可得当前级数发散。3. 计算序列极限此题显然是1/24. 计算函数极限利用函数的连续

2021-09-14 19:33:00 782

原创【论文笔记】Distilling the Knowledge in a Neural Network

Many insects have a larval form that is optimized for extracting energy and nutrients from the environment and a completely different adult form that is optimized for the very different requirements of traveling and reproduction.许多昆虫的幼虫形态是为了从环境中提取能量和营养而.

2021-09-14 16:37:08 350 1

原创【论文笔记】How Much Does Tokenization Affect Neural Machine Translation?

这篇是2018年的文章，主要讲的tokenization，即各类对数据处理的方式。Tokenization比较好的中文翻译是词语切分，这是一个很宽泛的概念，其中包含众多方法。简单的方法比如将标点和词中间加空格（多见于英文），复杂的方法需要应用到形态学的内容（比如复数、变形等）。而这些tokenization的方法目的，一般都是缩减词表。比如一个动词的原型组合一些形态相关的子词（subword）就可以表示各种时态。此外，随着切分后的词表缩小，词的出现频率也会相应增加（各种形态都算同一个词），这也有助于模

2021-08-13 16:04:24 117

原创【论文笔记】Neural Machine Translation by Jointly Learning to Align and Translate

这篇文章发表于2014年，是attention机制的起源文章。应该也是最近看的几篇文章中，难度最高的一篇。背景介绍文章发表时NMT已经兴起，基于encoder-decoder架构的神经网络模型已经成为当时的标准配置（但是似乎当时效果最好的翻译模型还是基于统计的）Encoder-Decoder架构的问题encoder的工作是将源语言的句子表示为一个固定长度的向量；decoder的工作是根据此向量进行语言生成。这中间有一个隐藏的问题：将整个源句子压缩为一个长度固定的向量，必然会导致信息的损失，尤

2021-08-02 20:09:33 360

原创【论文笔记】BLEU: a Method for Automatic Evaluation of Machine Translation

BLEU的意义在计算语言学的研究实验中，研究者希望能实时对机器翻译的质量进行评估（可能每天甚至没几个小时进行一次），而人工翻译评估是无法满足这一需求的，因此机器翻译研究受到了这一瓶颈的限制，难以有所突破。BLEU作为一种自动翻译评估方法，目的是解决这一问题。BLEU的全拼（Bilingual Evaluation Understudy）BLUE原理核心思想：机器翻译和人工翻译的越接近越好实现方法：定义数字量化“接近度”的方法必须条件：质量优秀的人工翻译语料库举例一：n-gram匹配

2021-08-02 15:50:19 923

原创【论文笔记】Sequence to Sequence Learning with Neural Networks

这是2014年的一篇文章，彼时深度学习技术刚刚问世不久，仅在一些简单的任务中应用（这些问题的输入和输出能直接转化为向量）。这篇文章介绍了将深度神经网络应用到序列任务中的方法（LSTM），并说到了（也可能是提出了）encoder-decoder的模型架构。读文章的时候可以看到，当时的主流方法还是SMT，而深度学习一般依托于SMT或致力于优化SMT。深度神经网络为什么难以应用到Seq2Seq深度神经网络的输入和输出维度必须是固定的（事先设置好的）序列任务的序列长度是不固定且未知的解决方法：RNN

2021-07-31 16:08:22 447

原创【论文笔记】Machine Transliteration 机器音译

这是一篇1992年的文章，提出了一种生成式模型用以解决人名和术语的（双向）音译问题。甚至包含了图像识别、语音、翻译等多个领域的内容。音译词翻译为什么重要音译词一般是专有名词，而专有名词往往是未登录词，提升对于音译词的翻译能力，能改善翻译水平。音译词翻译为什么困难不同语言有不同的发音习惯，在音译时会对词的读音做出改变在音译过程中做的改变会导致信息损失，使得回译更加困难音译规则并不统一，有一对多和缩写等特殊情况解决方法：又是概率和贝叶斯音译的过程可以分解为下面几步：使用概率表示各个步

2021-07-30 19:41:34 320

原创【论文笔记】A STATISTICAL APPROACH TO MACHINE TRANSLATION

这是一篇90年代关于机器翻译的论文，作为一名初学者，怀着考古和朝圣的心记下了这篇笔记。来自90年代的思考Although researchers quickly abandoned this approach, advancing numerous theoretical objections, we believe that the true obstacles lay in the relative impotence of the available computers and the dear

2021-07-30 14:33:53 185

空空如也

空空如也