![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
OCR方向
文章平均质量分 72
Patrick Star1
我对任何唾手可得,快速,出自本能,即兴,含混的事物没有信心。我相信缓慢,平和,细水长流的力量,踏实,冷静。我不相信缺乏自律精神和不自我建设,不努力,可以得到个人或集体的解放。
展开
-
【文本识别系列】Show, Attend and Read: A Simple and Strong Baseline for Irregular Text Recognition
论文原文:【链接】解读代码:【链接】原创 2021-07-15 18:55:59 · 1073 阅读 · 1 评论 -
【OCR文本识别系列】Read Like Humans: Autonomous, Bidirectional and Iterative Language Modeling for Scene Tex
read like humans 是中科大在2021年发在CVPR上的论文论文链接 【链接】代码链接【链接】视觉模型class BaseVision(Model): def __init__(self, config): super().__init__(config) if config.model_vision_backbone == 'transformer': self.backbone = ResTranformer(原创 2021-07-06 15:50:36 · 1161 阅读 · 0 评论 -
【零基础讲论文源码】gMLP:Pay Attention to MLPs
Transformer方向 swin-transformer解读【链接】 CVT 解读【链接】 gMLP解读【链接】gMLP是一种使用MLP来获得transformer性能的方法,谷歌用更少的参数在大量实验上达到了transformer同样的精度。gMLP的论文地址【链接】讲解的代码地址【链接】gMLP结构class gMLP(nn.Module): def __init__( self, *, ...原创 2021-05-31 16:39:55 · 2714 阅读 · 0 评论 -
【场景文本检测】paper里的实验参数和数据集选择
常用的数据集名称训练集验证集测试集特点ICDAR 2013ICDAR 20151000——500ICDAR 2017 MLT720018009000Total-Text1255——300CTW15001000——500...原创 2020-03-10 22:25:30 · 639 阅读 · 1 评论 -
【数据集转换】COCO数据集格式
简介COCO数据集现在有3种标注类型:object instances(目标实例), object keypoints(目标上的关键点), and image captions(看图说话),使用JSON文件存储。格式结构{ "info": info, "licenses": [license], "images": [image], #划入训练集(或者测试集)的图片...原创 2019-10-30 18:14:35 · 2132 阅读 · 0 评论 -
场景文本检测整理【不规则文本】
由于某些原因,被SCDN技术部给吃了,只能补一份,后期有时间不定期更新剩下的东西综述类文献整理金连文团队【汇报】对应整理的文档【github 检测】【GitHub 识别】【Github 端到端】一个github上的OCR整理【地址】【OCR检测十全大补丸】【白翔ICCV汇报】【2017-2018 OCR paper整理】【2018 OCR 论文盘点】不规则文本检测专题2...原创 2019-10-25 15:44:44 · 1146 阅读 · 0 评论 -
【持续更新】文本识别与检测资源17-19汇总
1.文本检测2.文本识别3.端到端4.其他原创 2019-09-07 19:50:54 · 908 阅读 · 0 评论 -
CTPN代码研读(四)utils/rpn_msr(bbox)研读
note:两个程序是用Cython写的,好处是速度快,但因为要用到cython涉及编译问题,所以编译比较麻烦。在作者的issue里找到了对应的py文件,作为参看。这两个nms.py和bbox.py是一个通用的,大部分的代码上都是相同的。先附上对应代码:#the py for nmsimport numpy as npdef nms(dets, thresh): x1 = dets[...原创 2019-07-09 11:26:37 · 633 阅读 · 0 评论 -
CTPN代码研读(一)数据集的使用以及模型
CTPN代码研读系列:数据集的使用以及模型1.输入的数据集标签gt_img_859.txt数据集格式:从左到右,分别为 x1,y1,x2,y2,x3,y3,x4,y4(四个检测框的x,y坐标),语种,识别出的字符 1192,1862,2424,1895,2405,2428,1185,2366,english,8512846,1280,1092,1379,1088,147...原创 2019-05-11 11:32:41 · 3602 阅读 · 16 评论 -
CTPN代码研读(三)utils/dataset(data_provider)研读
CTPN代码研读系列:数据集的使用以及模型prepare/labelprepare/data_provider知识点:python–multiprocessing包简单介绍:http://www.cnblogs.com/tkqasn/p/5701230.html原创 2019-05-11 11:27:24 · 1330 阅读 · 6 评论 -
CTPN代码研读(二) utils/prepare(label)研读
知识点:#其实sys.path是一个列表,这个列表内的路径都添加到环境变量中去了。#sys.path.append()方法可以添加自定义的路径。#os.getcwd(): 返回当前目录#os.listdir() 返回指定的文件夹包含的文件或文件夹的名字的列表。#os.path.join()函数用于路径拼接文件路径。#os.path.split()返回文件的路径和文件名#os.pat...原创 2019-05-06 21:09:06 · 1160 阅读 · 0 评论 -
【深度学习基础】准确率(Accuracy), 精确率(Precision), 召回率(Recall)和F1-Measure
这里主要解释的是前四个先给出百度百科定义召回率(Recall Rate,也叫查全率)是检索出的相关文档数和文档库中所有的相关文档数的比率,衡量的是检索系统的查全率;精度是检索出的相关文档数与检索出的文档总数的比率,衡量的是检索系统的查准率。召回率(Recall)和精度(Precise)是广泛用于信息检索和统计学分类领域的两个度量值,用来评价结果的质量。F-measure应该是精准率和...原创 2019-03-20 10:22:26 · 9586 阅读 · 0 评论 -
OCR介绍
什么是OCR技术?OCR英文全称是Optical Character Recognition,中文叫做光学字符识别。它是利用光学技术和计算机技术把印在或写在纸上的文字读取出来,并转换成一种计算机能够接受、人又可以理解的格式。文字识别是计算机视觉研究领域的分支之一,而且这个课题已经是比较成熟了,并且在商业中已经有很多落地项目了。OCR技术的分类:一.按主题划分:手写体识别和印...原创 2019-01-31 11:21:12 · 6682 阅读 · 0 评论