transformer学习笔记II

最新推荐文章于 2024-08-14 11:06:19 发布

Wimbley

最新推荐文章于 2024-08-14 11:06:19 发布

阅读量2.7k

点赞数

文章标签： 1024程序员节 transformer 计算机视觉深度学习人工智能

本文链接：https://blog.csdn.net/superb_victor/article/details/120941350

版权

transformer做ocr任务

transformer的结构天然适合做seq2seq的学习任务，直觉上讲，格式标准的图像任务需要做一系列转换才能使用transformer任务，或者说在输入侧适配encoder。ocr任务包含解码的过程，因此在输出侧使用掩码可以适配transformer decoder。

看完datawhale 教程，最为tricky的一部分是作者观察到宽高1:1的原图范围内对应着3个英文字符，因此将图片宽高设置为3：1，保证经过resnet18 感受野降低32倍后能够使得feature map每个点（512维）对应一个英文字符。

暂时还未手撕代码，先挖个坑待填充。没有看懂在模型训练完成前后decoder操作机制的不同，在训练的时候可以用上三角矩阵mask attention，而在输出的时候是使用rnn的思路，不断输入隐变量然后argmax解码出来字符？如果是这样的话，又如何处理字符长度不定长的问题呢？

引用

datawhale transformer 做ocr教程

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Wimbley

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
transformer学习笔记II

transformer做ocr任务
复制链接

扫一扫

Transformer与OCR

dongfang1984的博客

05-10

1554

由于OCR是序列到序列，NMT或者通用的任务Transformer也是Sequence 2 Sequence。而OCR识别经典论文是CRNN，其中是CNN+RNN+softmax，这个RNN可以试试LSTM，GRU，或者其他变种。也可以是机器翻译的端到端的序列识别。本文试图分析Transformer与OCR任务，试图将Transformer替换CRNN中的LSTM LSTM与Transformer Transformer实际上是google的论文『attention is all you need』.

Transformer学习笔记

行者无疆的博客

08-30

217

Transformer 1.整体流程其中，Encoder的输入为一句话的embedding向量，输出为施加self-attention之后的特征向量； Decoder中，self-attention的输入为译文的embedding向量，输出为施加self-attention之后的特征向量，其中第一个Decoder的self-attention中还需加入mask机制； Encoder-Decoder attention使用Encoder的输出特征向量计算KKK，VVV矩阵，使用译文的self-at

参与评论您还未登录，请先登录后发表或查看评论

transformers学习日记1

weixin_41215684的博客

08-18

206

transformers学习日记1transformers原理学习背景attention架构Self-Attention过程深度学习attention机制中的Q K V分别咋来的？ transformers原理学习背景 2017 年，Google 提出了 Transformer 模型，用 Self-Attention 的结构，取代了以往 NLP 任务中的 RNN 网络结构。2018 年 10 月，Google 发出一篇论文《BERT: Pre-training of Deep Bidirectional

transformer笔记

cuixuange的博客

03-09

240

来自李宏毅老师的课程笔记，http://speech.ee.ntu.edu.tw/~tlkagk/courses_ML19.html 0.前置基础 RNN: 优点:可以获取全局信息缺点:不能并行计算 CNN: 优点:GPU并行计算缺点:bigram仅能观察到本地信息 self-attention层: x1: input sequence item a1: item embedding q1...

机器学习笔记-Transformer

08-03

Transformer语言模型是一种基于注意力机制的深度学习模型，它是在2017年由Google提出的，被广泛应用于自然语言处理领域。 Transformer模型主要由编码器和解码器组成，其中编码器将输入的文本序列转换为一组向量，...

transformer论文笔记及思维导图

03-12

transformer论文笔记及思维导图，自留。推荐下列课程【Transformer论文逐段精读【论文精读】】 https://www.bilibili.com/video/BV1pu411o7BE/?share_source=copy_web&vd_source=3028d9bd754f243aee4c850f06ac7fef ...

Pytorch、NLP学习笔记

03-01

《PyTorch与自然语言处理学习笔记》 PyTorch是一个强大的深度学习框架，由Facebook的AI研究团队开发，以其灵活性和易用性受到了广大研究人员和开发者们的喜爱。本笔记将深入探讨PyTorch在自然语言处理（NLP）领域的...

Python Transformer模型笔记.md

08-17

### Python Transformer模型笔记 #### 一、Transformer模型的背景与思想 ##### 1.1 背景与起源 Transformer模型是由Vaswani等人在2017年的论文《Attention is All You Need》中首次提出的。这篇论文的发表标志着...

国外项目管理软件最佳实践：选型与应用

柚橙论

08-13

1016

在选择适合自己团队的项目管理软件时，了解各种工具的功能、优势和适用场景至关重要。从Asana的灵活性到Trello的直观看板，再到Monday.com的强大定制功能，每款软件都有其独特之处，可以满足不同类型项目和团队的需求。通过本文的介绍，希望您能对这些工具有了更深入的了解，并能够根据自己的实际需求做出明智的选择。无论您的团队规模如何，选择正确的项目管理工具都将是提升工作效率和项目成功率的关键一步。在数字化快速发展的今天，利用合适的项目管理软件，不仅可以优化工作流程，还可以激发团队潜力，推动业务持续发展。

强！小目标检测全新突破！检测速度快10倍，GPU使用减少73.4%

最新发布

08-14

754

强！小目标检测全新突破，提出Mamba-in-Mamba结构，通过内外两层Mamba模块，同时提取全局和局部特征，实现了检测速度快10倍，GPU使用减少73.4％的显著效果！【小目标检测】是近年来在深度学习领域中备受关注的一项技术，它通过提高模型在检测图像或视频中小尺寸目标的能力，显著提升了检测精度和鲁棒性。小目标检测技术已经在遥感图像分析、视频监控和自动驾驶等多个领域取得了显著成果，其独特的方法和有效的表现使其成为研究热点之一。

数学工具 -- 均值滤波计算之python cv2.boxFilter用法

sz66cm 学习随笔

08-13

234

是 OpenCV 库中的一种图像滤波函数，用于对图像应用均值滤波器。均值滤波是一种低通滤波器，它将图像中的每个像素值替换为该像素周围一个矩形区域内所有像素值的平均值。这个滤波器可以用于图像的平滑处理，减少噪声。参数说明：输入图像。可以是多通道或单通道图像（如灰度图或彩色图像）。：输出图像的深度。可以是以下之一：：滤波器的大小（宽度，高度），例如表示滤波器为 5x5 的大小。：输出图像，可选。如果没有提供，函数会创建一个与大小相同的输出图像。：锚点位置，指定滤波器的中心点。默认值表示锚点位

救生衣穿戴检测算法的功能优势与应用场景

yangbisheng1121的博客

08-12

804

在水上活动和海上作业中，救生衣的正确穿戴是保障生命安全的基本要求。然而，人工检测救生衣穿戴情况的方式存在效率低、易出错等问题，尤其在大规模人群或复杂环境中，更难以保证实时监控的有效性。因此，利用视觉分析技术开发救生衣穿戴检测算法，成为提高安全管理水平的重要手段。随着人工智能和计算机视觉技术的飞速发展，智能监控系统在各类安全管理场景中的应用越来越广泛。尤其是在需要实时监控与快速响应的场景中，视觉分析技术以其高效、精准的特点，成为了传统监控手段的有力补充。救生衣穿戴检测算法，正是在这种背景下应运而生。

农业上的目标跟踪论文汇总

如果想成为中心，那么就到中心去吧。

08-13

1032

野外动态障碍物的多目标跟踪（MOT）是农业机器人实现动态避障的重要前提。农村地区复杂、不可预测的道路环境会对机器人造成严重的振动，影响摄像机的姿势，从而导致物体匹配错误。因此，我们提出了一种改进的方法，即深度感知观测中心简单在线实时跟踪（DA-OCSORT），其中包括两个新模块，即基于惯性测量单元（IMU）的相机运动补偿（ICMC）和深度感知（DA）。该方法可以利用IMU信息对摄像机的自我运动进行补偿，并通过物体深度信息进行多维匹配，从而最大限度地减少摄像机运动对跟踪过程的影响。

Python计算机视觉编程第四章

zxsdss的博客

08-14

823

OpenGL 使用 4×4 的矩阵来表示变换，照相机与场景的变换分成了两个矩阵，GL_PROJECTION 矩阵和GL_MODELVIEW 矩阵。由于我们需要限制旋转矩阵 R 为正定的（否则，旋转坐标轴即可），所以如果需要，我们可以在求解到的结果中加入变换T来改变符号。如果图像中包含平面状的标记物体，并且已经对照相机进行了标定，那么我们可以计算出照相机的姿态。R是描述照相机方向的旋转矩阵，t是描述照相机中心位置的三维平移向量，内标定矩阵K描述照相机的投影性质。这里使用的矩阵因子分解的方法称为RQ因子分解。

计算机视觉的算法分析

weixin_57332529的博客

08-14

648

卷积神经网络是计算机视觉中最重要的算法之一，通过模拟人类视觉系统的工作原理，将图像分解为多个卷积层和池化层，实现图像的特征提取和分类。CNN在图像分类、人脸识别和医疗图像分析等应用中表现优异。边缘检测用于检测图像中强度变化显著的边缘，常用算法包括Canny、Sobel和Prewitt等。这些算法在物体检测和分割中具有重要作用。目标检测和识别是计算机视觉中的核心任务之一。

图像压缩算法

LS_Ai的博客

08-13

943

JPEG（Joint Photographic Experts Group）压缩是最常用的有损图像压缩算法之一。它通过减少图像中的冗余数据来实现高效压缩，特别适用于自然图像。JPEG压缩通过有损的方式显著减少图像文件大小，适用于对压缩质量要求不高的场景，如照片存储和网页图像加载。无损压缩通过高效编码原理在不丢失任何信息的情况下压缩图像数据。常见的无损压缩格式包括PNG和GIF，适用于需要精确保存图像信息的场景。无损压缩可以在保持图像完整性的同时，减少存储空间，适用于精确度要求高的应用场景。

图像--数据增强

GDHBFTGGG的博客

08-12

762

图像数据增强（Data Augmentation in Images）是一种通过对图像进行各种变换来生成更多样本的方法。它在计算机视觉任务中广泛应用，如图像分类、目标检测、图像分割等。数据增强可以有效提高模型的泛化能力，减少过拟合，特别是在数据集规模较小或数据多样性不足的情况下。

李宏毅transformer笔记

08-22

李宏毅是一位著名的机器学习和深度学习专家，他在教学视频中也提到了Transformer模型。下面是一些关于李宏毅关于Transformer的笔记总结： 1. Transformer 是一种基于注意力机制（attention mechanism）的序列到序列（sequence-to-sequence）模型。它在自然语言处理任务中取得了很大的成功。 2. Transformer 模型的核心思想是完全摒弃了传统的循环神经网络（RNN）结构，而是采用了自注意力机制（self-attention mechanism）来建模输入序列之间的依赖关系。 3. 自注意力机制能够将输入序列中的每个位置与其他位置建立联系，从而捕捉到全局上下文的信息。它能够解决传统的RNN模型在处理长序列时的梯度消失和梯度爆炸问题。 4. Transformer 模型由编码器（Encoder）和解码器（Decoder）两部分组成。编码器负责将输入序列表示为高维向量，解码器则根据编码器的输出生成目标序列。 5. 编码器和解码器由多个层堆叠而成，每一层都包含了多头自注意力机制和前馈神经网络。多头自注意力机制可以并行地学习输入序列中不同位置之间的关系。 6. Transformer 模型还引入了残差连接（residual connection）和层归一化（layer normalization）来帮助模型更好地进行训练和优化。这些是李宏毅关于Transformer的一些主要笔记总结，希望对你有所帮助。注意，这些总结仅代表了我对李宏毅在其教学视频中所讲述内容的理解，如有误差请以李宏毅本人的观点为准。