pytorchOCR之SAST

最新推荐文章于 2024-05-25 11:26:46 发布

一名ai小菜鸡

最新推荐文章于 2024-05-25 11:26:46 发布

阅读量666

点赞数

分类专栏： OCR 文章标签：深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/fxwfxw7037681/article/details/113771091

版权

OCR 专栏收录该内容

13 篇文章 103 订阅

订阅专栏

pytorchOCR之SAST

论文
 官方代码

主要思路

在这里插入图片描述
本文主要思路，预测四个map，tcl，tvo，tco，tbo。其中tcl为分割图，与psenet和dbnet的kernel一样，为了分开密集临近的文本，如下图所示：

图a中红色部分即为tcl，计算方式是通过文本向内收缩形成的分割图，图b为tbo的计算方式，代表了tcl像素到边界的偏移量，上边界x,y和下边界x,y共四维。图c为tvo的计算方式，代表了tcl中的像素到文本标注框的四个角点的偏移量x,y，所以共8维，图d为tco的计算方式，代表了tcl中像素到标注框中心点的偏移量x,y，所以共2维。四个map的生成方式可参看ptocr/dataloader/DetLoad/SASTProcess_ori.py

所以loss设计如下：
在这里插入图片描述
loss的实现可参看ptocr/model/loss/sast_loss.py

本文还有一个创新点，提出了一个CAB模块。来起到一个在水平和竖直方向来聚合像素上下文的作用，来起到增强分割效果的作用。如下：
在这里插入图片描述
对照这图片，具体实现可参看/ptocr/model/head/det_SASTHead.py中的cross_attention。

文中所有图片皆来自论文

一名ai小菜鸡

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
pytorchOCR之SAST

pytorchOCR之SAST论文官方代码主要思路本文主要思路，预测四个map，tcl，tvo，tco，tbo。其中tcl为分割图，与psenet和dbnet的kernel一样，为了分开密集临近的文本，如下图所示：图a中红色部分即为tcl，计算方式是通过文本向内收缩形成的分割图，图b为tbo的计算方式，代表了tcl像素到边界的偏移量，上边界x,y和下边界x,y共四维。图c为tvo的计算方式，代表了tcl中的像素到文本标注框的四个角点的偏移量x,y，所以共8维，图d为tco的计算方式，代表了tc
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。