文字检测&识别
文章平均质量分 90
丿罗小黑
计算机硕士在读
展开
-
场景文本检测&识别学习 day09(SSM、S4、Mamba、S6)
ΔΔ。原创 2024-05-14 15:35:37 · 421 阅读 · 0 评论 -
场景文本检测&识别学习 day09(Swin Transformer论文精读)
WqWkWvON2⋅d)O((4N2⋅dO16N2⋅d)OM2⋅N⋅d)OM2⋅4N⋅d。原创 2024-05-06 16:41:51 · 847 阅读 · 1 评论 -
场景文本检测&识别学习 day08(无监督的Loss Function、代理任务、特征金字塔)
无监督的Loss Function(无监督的目标函数)根据有无标签,可以将模型的学习方法分为:无监督、有监督两种。而自监督是无监督的一种无监督的目标函数可以分为以下几种:生成式网络的做法,衡量模型的输出和固定的目标之间的差距,主要考虑输入数据是怎么分布的,即 “给定Y,如何生成X”。如auto-encoder:输入一张干扰过的图,通过编码器-解码器,然后得出一张还原后的图,通过对比原图和生成的还原后的图之间的差异判别式网络的做法,衡量模型的输出和固定的目标之间的差异,主要考虑输入和输出的映射关系原创 2024-05-03 21:59:56 · 485 阅读 · 0 评论 -
场景文本检测&识别学习 day06(Vi-Transformer论文精读、MAE论文阅读)
16,那么线性层就会投影到长为256的一个维度,之后把它reshape到16。16个块,来解决输入序列太长的问题,如果输入图片的尺寸为224。14(224/16 = 14),那么输入序列长度就变为14。225的输入序列就变为了2。原创 2024-04-29 14:53:35 · 602 阅读 · 0 评论 -
场景文本检测&识别学习 day07(BERT论文精读)
BERT在CV领域,可以通过训练一个大的CNN模型作为预训练模型,来帮助其他任务提高各自模型的性能,但是在NLP领域,没有这样的模型,而BERT的提出,解决了这个问题BERT和GPT、ELMO的区别:BERT是用来预训练深双向的表示,并且使用没有标号的数据,同时上下文信息是左右都可以用来推测,训练好的BERT只需要增加一个输出层就可以在很多NLP的任务上得到不错的结果,同时不需要对模型进行很多针对下游任务的改动GPT使用了新架构Transformer,但是只能从单向(左侧)的上下文信息来推测,E原创 2024-04-26 16:41:44 · 571 阅读 · 0 评论 -
场景文本检测&识别学习 day05(Transformer论文精读)
hththt−1ht−1hththt−1ht。原创 2024-04-19 22:52:07 · 867 阅读 · 2 评论 -
场景文本检测&识别学习 day04(目标检测的基础概念)
经典的目标检测方法one-stage 单阶段法:YOLO系列one-stage方法:仅使用一个CNN,直接在特征图上预测每个物体的类别和边界框输入图像之后,使用CNN网络提取特征图,不加入任何补充(锚点、锚框),直接输出预测框左上右下角的坐标以及物体的类别即该CNN网络在单次前向传播中,不仅提取特征,还要预测每个物体的类别和边界框优点:速度非常快,适合做实时检测任务缺点:效果通常不会太好two-stage 两阶段:Faster-RCNN 、 Mask-RCNN系列two-stage原创 2024-04-12 21:40:48 · 592 阅读 · 2 评论 -
场景文本检测&识别学习 day03 (CUDA Error解决、输入尺寸控制、Resume)
【代码】场景文本检测&识别学习 day03 (Error解决)原创 2024-04-12 14:05:24 · 517 阅读 · 0 评论 -
场景文本检测&识别学习 day02(AlexNet论文阅读、ResNet论文精读)
AlexNet论文精读感想在介绍部分,我们不能只介绍自己使用的方法,这很窄,比如我想用DETR,那我就不能只介绍DETR,我可以介绍一下传统的OCR,比如CNN,YOLO等原创 2024-04-08 22:00:44 · 209 阅读 · 0 评论 -
场景文本检测&识别学习 day01(传统OCR的流程、常见的损失函数)
传统OCR的流程传统OCR:传统光学字符识别常见的的模型主要包括以下几个步骤来识别文本预处理:预处理是指对输入的图像进行处理,以提高文字识别的准确率。这可能包括调整图像大小、转换为灰度图像、二值化(将图像转换为黑白两色)、去噪声、校正图像中的倾斜等步骤。目的是减少图像中的干扰信息,并突出文字部分。文本检测:文本检测的目的是在图像中定位文本的位置。这一步骤要解决的主要问题是识别图像中哪些区域包含文字。使用的模型通常是基于深度学习的,例如卷积神经网络(CNN)。这些模型可以学习文本的形状、大小和布局原创 2024-04-06 13:53:29 · 529 阅读 · 0 评论