OCR
文章平均质量分 72
一名ai小菜鸡
一名ai小菜鸡的成长之路
展开
-
crnn 不同backbone探索(准确率和测试时间)
crnn原创 2022-05-15 09:35:54 · 933 阅读 · 5 评论 -
pytorchOCR之DBnet(多类别文本检测1)
pytorchOCR之DBnet(多类别文本检测)代码完整代码动机主要是为了对不同文本类型,既要检测文本位置,又要分类文本类型,比如中英文检测分类,手写印刷检测分类。实现方式1 . 模型结构这里对DBnet结构多增加了一个分类的支路,如下:self.classhead = nn.Sequential( nn.Conv2d(inner_channels, inner_channels // 4, 3, padding=1, bias=bias),原创 2021-05-27 14:58:59 · 4283 阅读 · 22 评论 -
pytorchOCR之CRNN+centerloss
pytorchOCR之CRNN+centerloss这是阿里团队提出来用来解决softmax对于形近字表征不足的问题,之前一直想写来着,写了一半被拉去做项目了,偶然逛GitHub,看见一位大佬也做了这个工作,原代码在此,本着我辈不嫖白不嫖的思想,花了一个周末嫖过来了。思路...原创 2021-03-13 12:33:42 · 2357 阅读 · 28 评论 -
pytorchOCR之CRNN
pytorchOCR之CRNN这里就不做crnn的原理解释了,网上一大堆。这里按照代码的思路梳理一遍crnn的流程。crnn 流程首先,网络的输入是batchsize∗channel∗h∗wbatchsize*channel*h*wbatchsize∗channel∗h∗w,这里我们举个例子,假设输入为64∗3∗32∗28064*3*32*28064∗3∗32∗280,先经过backbone,一般backbone设计是在高度方向向下pooling 32倍,也就是5个stride 为2 ,将图片高度变成原创 2021-02-28 11:47:36 · 1276 阅读 · 0 评论 -
pytorchOCR之SAST
pytorchOCR之SAST论文官方代码主要思路本文主要思路,预测四个map,tcl,tvo,tco,tbo。其中tcl为分割图,与psenet和dbnet的kernel一样,为了分开密集临近的文本,如下图所示:图a中红色部分即为tcl,计算方式是通过文本向内收缩形成的分割图,图b为tbo的计算方式,代表了tcl像素到边界的偏移量,上边界x,y和下边界x,y共四维。图c为tvo的计算方式,代表了tcl中的像素到文本标注框的四个角点的偏移量x,y,所以共8维,图d为tco的计算方式,代表了tc原创 2021-02-09 16:49:31 · 638 阅读 · 0 评论 -
pytorchOCR之PAN
pytorchOCR之PAN论文官方代码主要思想这篇文章主要是基于一个聚类的思想,将每一个单独的文本看做是一类。文章借鉴了centernet中的思想,为每个像素点预测一个四维的向量。文本kernel中像素点的四维向量的均值,作为一个聚类中心,于是属于该类中心的像素的四维向量与聚类中心四维向量的距离应该尽可能小,并且每个聚类中心四维向量距离应该尽可能大。...原创 2021-02-07 10:16:38 · 688 阅读 · 1 评论 -
pytorchOCR之DBnet
pytorchOCR之DBnet论文官方代码原创 2021-01-29 12:19:45 · 1946 阅读 · 3 评论 -
pytorchOCR之PSEnet
pytorchOCR之PSEnet论文链接官方代码论文解读这里就不做了,网上很多。这里只对项目代码解读。标签制作模型解读该检测方法是基于分割,论文使用FPN作为分割网络,其中backbone为resnet50,参看ptocr/model/backbone/det_resnet.py...原创 2021-01-07 19:53:11 · 631 阅读 · 1 评论 -
pytorchOCR之目录层级结构说明
pytorchOCR之目录层级结构说明目录层级结构如下│ finetune_prune_model.sh│ infer.sh│ make.sh│ README.md│ requirement.txt│ to_onnx.sh│ to_tensorrt.sh│ ├─checkpoint│ 新建文本文档.txt│ ├─config│ det_DB_mobilev3.yaml│ det_DB_mobilev3_common.yam原创 2021-01-07 19:50:40 · 820 阅读 · 2 评论 -
pytorchOCR之数据篇
pytorchOCR之数据篇文本检测目前训练数据是基于icdar2015数据集来做算法效果对比的。-训练数据说明:标注图片:标注文件:如上图所示,标注文件中存放着标注框的坐标,一共7行即为7个框,对应图片中红色的框的四个角点的坐标如绿色圆圈所示,角点的记录顺序为1,2,3,4即为左上,右上,右下,左下的四个点的(x,y),一共8个坐标,,最后一个是标注框的label,其中###代表着文本模糊或者说可忽略文本,这种文本将不参与文本训练。训练时需要的数据文件说明在训练时需要在conf原创 2020-12-29 19:02:01 · 1431 阅读 · 0 评论 -
pytorchOCR之参数篇
pytorchOCR之参数文本检测篇以det_DB_mobilev3.yaml为例,其余类似:base部分参数解释gpu_id:设置gpu,可设置单个或多个例如 ‘0’ 或者‘0,1,2,3’algorithm指定算法名称,例如DB,PSEpretrained是否加载预训练模型,True or Falsein_channels指定每个尺度的inchannel 例如这里mobilev3是[24, 40, 48, 96]inner_channels原创 2020-12-26 23:03:42 · 1710 阅读 · 0 评论 -
文本检测模型之CTPN
###文本检测模型之CTPN####思路将文本定位框拆分成一个个等宽(论文中为16)的小文本框,然后只需在y方向上做回归。这里仍然使用了rpn(可看faster rcnn),唯一不同的是这里得到的候选区域(region proposal )是一个等宽不等高的。这种小文本框也规避了网络感受野不足的问题。使用了cnn+rnn的组合,这里加入rnn使得宽度方向上或者说水平方向上形成一种联系(长短...原创 2020-01-08 20:43:36 · 4500 阅读 · 20 评论 -
基于pytorch的OCR识别库
基于pytorch的OCR识别库对一年来学习的算法做了一个整理,同时也方便使用(项目持续更新中)识别库的地址: github地址这里支持的算法包括:DBnet 论文链接PSEnet 论文链接PANnet 论文链接SASTnet 论文链接CRNN 论文链接这里做了什么:对上面算法进行了实现和实验提供各个算法的训练和测试接口提供各个算法的预训练模型支持pytorch转成onnx,及onnx调用接下来会做什么:提供onnx转tensorrt的python接口,及调用训练通用o原创 2020-09-24 16:37:03 · 5747 阅读 · 2 评论