论文
文章平均质量分 72
Tyyy`
这个作者很懒,什么都没留下…
展开
-
Multi-modal Text Recognition Networks: Interactive Enhancements between Visual and Semantic组会
文本识别网络不断地进步,从单纯地只利用视觉信息到现在的大多数网络都开始结合语义信息。因此现在的文本识别网络可以分为两个部分,分别是VM和LM。那么目前的VM和LM结合的方法可以总结为以下四类。VM之后接LM,VM和LM输出的特征结合之后作为最后的识别特征。比如说之前的SRN,ABINet的都是这种方法。第二种类型是VM辅助LM,就像joint visual semantic这篇文章,多阶段的解码器通过多次使用视觉信息来提升语义信息。在每一个阶段,都会添加噪声,并重新解码。第三种类型是LM辅助VM,就像原创 2022-01-11 15:35:40 · 2088 阅读 · 1 评论 -
A Multiplexed Network for End-to-End, Multilingual OCR组会稿
端到端的OCR方法已经能够带来很不错的精度了,检测和识别能够互相帮助带来提升,但是之前大多数的方法针对的都是单一的一种语言:英文。英文仅仅只有26个字母,而且识别的时候,我们一般不区分大小写。除了英文之外,还有很多的拉丁语种。拉丁语种的特点就是字符比较少,词语都是几个基础的字符组成起来的。而中文,韩语,日语这些亚洲语言,和英文区别就很大,字符的个数远远多多于英文。此外还有很多已经遗忘的语言和古文字。因此单单只研究英文的端到端方法是不足以解决世界上全部的OCR的问题。因此一个能够识别多语种的文本端到端的方原创 2021-07-02 22:03:44 · 357 阅读 · 0 评论 -
ViLT_Vision-and-Language Transformer Without Convolution or Region Supervision组会稿
背景知识 预训练模型后再finetune已经在cv和nlp领域证明了其可行性,同样的,这种方式在视觉和语言结合的多模态领域也能够带来一定的提升。预训练的方式可以是有监督和自监督。比如说,谷歌很多的图像分类任务都是在自己的巨大数据集JFT上预训练之后,再在imagenet上finetune。而nlp领域,bert类模型都是在大量网络上爬取的语料上进行自监督的方法预训练。目前,多模态领域也已经有了很多研究关注预训练后再在具体任务上进行微调,也证明了这种方法的有效性。(VLP代表的就是vision and l原创 2021-07-02 22:02:38 · 336 阅读 · 0 评论 -
Perceiver_General Perception with Iterative Attention稿
人们理解世界是依赖多模态信息的融合,视觉,声音,触觉的结合让人能够准确地感知身边的事物。由于,不同模态的输入的维度是不相同的,比如纯音频信号,是一维的,图片是二维的,视频,点云是3d的。因此之前的很多网络架构设计都是局限在一个单模态里面的,作者就希望提出一个可以同时处理多模态并且针对不同模态不用做很多改动的方法。 这个方法是基于Transformer的改进。目前transformer已经在图片领域有了巨大的运用。ViT堆叠Transformer encdoer引领了transformer在图片中的热原创 2021-04-28 19:12:04 · 848 阅读 · 0 评论 -
Towards Robust Visual Information Extraction in Real World论文分享稿
简介 这篇文章提出了一个SOTA的端到端信息提取方法和一个中文信息提取的数据集。 视觉关键信息提取的方法可以分为两种:端到端和非端到端。非端到端的做法是将这个任务分为三个(两个)子任务,分别进行训练,之后再进行级联。三个模块分别为文本检测和识别(检测和识别的端到端),关键信息提取模块。关键信息提取模块的话可以分为以下几类:纯文本来做信息提取,纯文本加上位置信息(Post-OCR parsing)和纯文本加上位置信息、视觉信息(LayoutLM,PICK)。端到端有两种做法,一种是三个模块连接在一起进原创 2021-03-18 15:37:41 · 569 阅读 · 0 评论 -
ViT and DeiT
简介 在nlp方面,transformer已经成为了标配。但是在cv方向,transformer的应用仍然是受限的。通常人们只是利用transformer来辅助cnn网络。这篇文章就完全抛弃了cnn,单纯地使用transformer也能够处理分类任务。贡献证明了单纯地使用transformer是work的。使用大量的数据训练transformer,将精度做到了SOTA。pretrain model的开源CNN vs Transformer CNN是一种分层(hierarchical)的原创 2021-01-08 10:20:17 · 2130 阅读 · 0 评论 -
ConvBERT: Improving BERT with Span-based Dynamic Convolution稿
类bert的语言模型是当下几乎所有nlp任务都会运用到的基本模型,他在大规模的无标签的语料上进行预训练,然后在下游任务微调。他是由transformer的encoder构成的。因此,训练这个模型,需要大量的计算资源。人们开始研究如何降低计算资源的消耗,有模型压缩,蒸馏等等方法。之前有论文发现bert中的某些注意力头只学习局部依赖,那么完全就没必要使用self attention的方法来学习这些依赖,作者希望利用卷积来替代,来学习这些局部依赖。动态卷积 卷积的使用方法是参考了2019年的Pay Le原创 2020-12-09 11:09:04 · 346 阅读 · 0 评论 -
TRIE_End-to-End Text Reading and Information Extraction for Document Understand 稿
富文本(VRD) 富文本因为结合了视觉和文本两种模态而得名。它不但含有纯文本信息,还含有文档的结构,版式,文本颜色,字体,大小等等特征。Layout在这里指的是文本之间的相对位置和text type。text type分为两种,一种是structed,另一种则是semi-structed。structed指的是类别是固定的(在图片中必定出现这些内容),semi-structed 指的是有不固定类别,有些类别可以在也可以没有。结构 富文本理解的方法可以是双阶段的,也可以是端到端的。双阶段的第一阶段就原创 2020-11-02 10:15:16 · 831 阅读 · 0 评论 -
百度SRN的网络结构
论文《Towards Accurate Scene Text Recognition with Semantic Reasoning Networks》 paddlepaddle ocr整体网络流程#mermaid-svg-lbx9Wy2dDM2hwxnE .label{font-family:'trebuchet ms', verdana, arial;font-family:var(--mermaid-font-family);fill:#333;color:#333}#mermaid-svg-原创 2020-10-22 14:29:38 · 688 阅读 · 0 评论 -
Adaptive Text Recognition through Visual Matching稿
简介 这篇文章的目的在于解决文档识别中的文本识别的多样性和泛化性问题。通过视觉匹配的方法来做文本识别。传统文本识别的方法的缺点 传统的文本识别的方法一般是由一个编码器加一个序列解码器组成。整个pipeline会包含字符矫正,特征提取,字符建模,解码等模块。这种方式训练的时候是去学习训练集中的字体和纹理的信息,因此一旦出现训练集之外的字体,泛化性就不会很好。解码前需要确定好字符类别的数量,训练完之后的模型只能解码字典中的内容。出现字典外的字符就无法解码。解码器和编码器得一一对应。 我们所希望的方原创 2020-09-17 17:21:55 · 404 阅读 · 1 评论 -
AE TextSpotter_Learning Visual and Linguistic Representation for Ambiguous Text稿
简介 scene text spotting旨在更好地检测和识别文本内容。但是在需要检测的文本之间存在巨大的空格,或者一张图片中,文字的排列顺序既可以是水平也可以是垂直排列的时候,就会出现检测不准确的情况。错误地将一个文本区域分为两个,或者是错误地标注了文本排列顺序。这是因为这些检测的方法都仅仅使用了视觉信息,而语言信息只是单单用来做后处理(比如说字典)。作者希望通过添加语言信息,并将语言信息结合到网络的训练过程中,来辅助视觉信息,最终解决这些错误的问题。模块 这个网络分为三个模块,检测识别和重排原创 2020-08-21 10:35:48 · 543 阅读 · 1 评论 -
RobustScanner: Dynamically Enhancing Positional Clues for Robust Text Recognition稿
文本识别str领域伴随着rnn,cnn,selfattention的出现,准确率也随之提高。使用attention 解码,可以在不需要文本矫正的情况下进行文本识别。但是使用attention解码会存在一些问题,,目前有两个挑战,一个是attention漂移的问题。这里举个图片的例子比如说左边这张图会出现连续的两个likely,这也是因为我们训练的时候,使用的文本内容几乎都是单词,而不是随机生成的乱码,因此识别器学习到的更多的解码顺序都是基于内容信息的。我们使用的训练集中是用单词字符生成的,那么针对乱码的原创 2020-07-24 10:15:35 · 519 阅读 · 0 评论 -
SCATTER:Selective Context Attentional Scene Text Recognizer稿
这是一篇来自亚马逊的文章,对文本识别的方法提出了一种新的思路。 目前来看,文本识别的方法可以分为两种,一种是基于字符级别的文本识别,另一种则是基于字符串的识别。基于字符的识别,通常使用的都是分割的方法。基于字符串的识别的方法可以分为两种,一种是基于ctc的decoder的方式,另一种就是基于attention的decoder的方式。左边图中的(a)就是目前常用的基于attention decoder的流程图。可以分为四个步骤:第一步,图像的矫正,旋转。第二步,特征提取。第三步,内容建模。最后一步就是原创 2020-06-30 16:21:29 · 998 阅读 · 0 评论 -
Exploring Self-attention for Image Recognition稿
狭义的self attention self attention这个说法来自于attention is all you need这篇论文,它也是构成transformer的基础。提出的原因是因为基于rnn做attention的话,是无法做并行化且rnn的结构在长距离的依赖的时候效果并不好。 self attention是针对key,value,query三个变量来计算的。这三个变量都来自于自己的本身乘以一个矩阵变换而来。因此叫做self attention。计算attention的公式就是q和k之原创 2020-06-04 17:22:45 · 3711 阅读 · 2 评论 -
On Vocabulary Reliance in Scene Text Recognition笔记
简介 目前很多sota的方法的结果在预测字典中的单词有很好的的效果,但是遇到图片中存在不存在字典中的单词的效果就不是很好。作者把这种现象称作为vocabulary reliance.作者发现(1)这种现象是普遍存在的,或多或少都会有这种情况(2)基于attention的方法在预测词典外的单词效果不好,而使用视觉特征的分割类的方法效果优秀。(3)内容建模和预测层相关。作者提出了一种结合基于attention和分割两种方法的训练策略,来减轻字典依赖这个现象,提升了识别的表现。介绍 针对这个现象,举个例原创 2020-05-21 20:30:45 · 766 阅读 · 0 评论 -
Encoding word order in complex embeddings稿
过去的positional embedding 首先介绍为什么需要位置编码。对于语言来说,单词的位置和顺序十分的重要。举个简单的例子:我在上山和我在山上,虽然这两句话组成的字都一样,但由于顺序不一样导致了完全不一样的语义。rnn的网络结构是一种顺序结构,能够学习到字符之间的顺序关系。而transformer的网络结构完全是一种self attention的叠加,是无法学习到语句的顺序关系的。因...原创 2020-04-30 14:35:24 · 747 阅读 · 0 评论 -
LayoutLM: Pre-training of Text and Layout for Document Image Understanding稿
背景介绍 预训练技术在图片领域和文字领域都有很多的应用。对于图像来说,一般浅层的网络里都是最基本的内容,因此可以复用。用的最多的就是在ImageNet上预训练好的resnet,之后再针对你特定的任务进行finetune。但是何凯明也提出过无需预训练,也能达到一样效果的结论。是否使用见仁见智。对NLP来说,最近两年的巨大进步都是来自BERT这个预训练模型的提出。在大量的预料上训练后来辅助后续的下...原创 2020-04-26 20:25:49 · 1254 阅读 · 2 评论 -
Sequence-to-sequence Domain Adaptation Network for Robust Text Image Recognition笔记
简介 Domain adaptation 可以解决不同域之间的偏移的问题。之前大多数的工作都没有考虑连续序列的问题,都是对于单一内容的。这篇文章中,作者提出了一个SSDAN的网络来做文本识别。其中的gateed attention similarity用来将源域和目标域的字符特征分布来对齐。对文本识别带来提升。domain adaptation的好处 如何训练一个鲁棒的识别器能够很好地识...原创 2020-02-16 11:35:25 · 715 阅读 · 0 评论 -
Adaptive Attention Span in Transformers
简介 这篇论文作者提出了一种独特的自注意力机制,能够学习到最佳的attention覆盖文本的范围。 Transoformer很难关注一个超过千个单词的句子,但是在字符语言模型中,会出现跳跃千个字符的关联。作者提出了一种多头注意力的改进版,让多头注意力学习到最优的注意力关联,减少计算量。这种改进版的Transformer在低层关注很少的文本,而在深层能够关注到更多的文本内容。自我决定需要关注...原创 2020-02-16 11:34:42 · 1494 阅读 · 0 评论 -
TextDragon_An End-to-End Framework for Arbitary Shaped Text Spotting
简介 第一个做对于弯曲文本端到端的检测识别的网络。检测的灵感来自于Text snake,识别是CNN加CTC。在检测和识别的中间使用了自己提出的一个特征转换器RoISlide。然后这个模型可以仅仅使用单词和单词的中心线的标注进行弱监督的训练。检测 TextSnake使用的是园来表示文本,而这个方法使用长方形来表示。然后提取出的特征也是多尺度的叠加。检测分为起来那个模块,一个是中心线检测模...原创 2020-02-16 11:33:44 · 559 阅读 · 0 评论 -
Knowledge-aware Graph Neural Networks with Label Smoothness Regularization for Recommender Systems
Label Smoothness Regularization 因为与传统的GNN不同,边的权重是可以学习的,而且在钱箱传播的过程中,还有w的参数需要学习。为了防止过拟合,而且由于边的权重的重要性,因此需要刚过的约束。作者在这里使用了Label Smoothness Regularization。具体的公示内容没有看懂。为了这个正则化和可学习的gnn网络,作者提出了一个独特的损失函数。直观...原创 2020-02-16 11:32:30 · 1704 阅读 · 0 评论 -
Using Object Information for Spotting Text
简单理解 直观理解来说,很多时候,自然场景中文本的出现往往与自然场景中的物体有关,比如说,在广告牌上一定有文字。然后有一些物体上往往会更大概率出现为。文本和物体并不是相互独立的。而且这样利用物体的信息还有一点好处,会减少文本检测的误检率。比如说车轮子和英文字符o很像,但是我们可以知道在文字是不可能出现在车底下的,这就杜绝了错误是别的问题。数据集 数据集是能够训一个好模型的关键。作者自己构...原创 2020-02-16 11:31:26 · 291 阅读 · 0 评论 -
Chinese NER Using Lattice LSTM
简介 本文主要提出了一种对于LSTM的魔改。针对的任务是中文的NER任务。名词解释NER Named Entity Recognition,命名实体识别。比如说小明就是人命,上海就是地点。学术上NER所涉及的命名实体一般包括3大类(实体类,时间类,数字类)和7小类(人名、地名、组织机构名、时间、日期、货币、百分比)。对于其他任务来说,通过NER可以提供更多的有效的信息。CRF C...原创 2020-02-16 11:29:57 · 256 阅读 · 0 评论