2019年02月_Star_ACE

原创 pytorch的inference

这里inference两个程序的连接，如目标检测，可以利用一个程序提取候选框，然后把候选框输入到分类cnn网络中。这里常需要进行一定的连接。#加载训练好的分类CNN网络model=torch.load('model.pkl')#假设proposal_img是我们提取的候选框，是需要输入到CNN网络的数据#先定义transforms对输入cnn的网络数据进行处理，常包括resize、to...

2019-02-20 23:58:16 5215

原创一些奇怪的BUG

1.pytorch中的ResNets模型，之前在pytorch==0.3的版本中，输入是resize成227x227。后来升级到0.4版本，resize成227x227会出现size mismatch的错误，这是将resize改成224x224就能运行...

2019-02-20 18:16:13 286

在机器学习中，我们经常会遇到类别数据分布不均衡问题，即某类中含有很多数据，而其他类别中的数据量很少。在这种情况下, 使用传统机器学习算法开发的预测模型可能存在偏差和不准确，造成上述的原因是，传统算法模型通过减少loss来提高准确性，他们并没有考虑到类别的分类不均问题。因此机器学习算法在面对不平衡的数据集时, 往往会产生不理想的分类器。标准分类器算法 (如决策树和逻辑回归) 倾向于只预测多数类数...

2019-02-19 01:38:39 11529 5

转载 OCR技术（CTPN，SegLink，EAST文本检测）

文字识别分为两个具体步骤：文字的检测和文字的识别，两者缺一不可，尤其是文字检测，是识别的前提条件，若文字都找不到，那何谈文字识别。今天我们首先来谈一下当今流行的文字检测技术有哪些。文本检测不是一件简单的任务，尤其是复杂场景下的文本检测，非常具有挑战性。自然场景下的文本检测有如下几个难点：文本存在多种分布，文本排布形式多样；文本存在多个方向；多种语言混合。我们先从直观上理解文本检测任务。...

2019-02-15 13:46:50 5713 1

转载 OCR技术（大批量生成文字训练集）

如果是想训练一个手写体识别的模型，用一些前人收集好的手写文字集就好了，比如中科院的这些数据集。但是如果我们只是想要训练一个专门用于识别印刷汉字的模型，那么我们就需要各种印刷字体的训练集，那怎么获取呢？借助强大的图像库，自己生成就行了！先捋一捋思路，生成文字集需要什么步骤：确定你要生成多少字体，生成一个记录着汉字与label的对应表。确定和收集需要用到的字体文件。生成字体图像，存储在规定的...

2019-02-07 22:06:07 5905 2

转载 OCR技术（文字定位与切割）

要做文字识别，第一步要考虑的就是怎么将每一个字符从图片中切割下来，然后才可以送入我们设计好的模型进行字符识别。现在就以下面这张图片为例，说一说最一般的字符切割的步骤是哪些。当然，我们实际上要识别的图片很可能没上面那张图片如此整洁，很可能是倾斜的，或者是带噪声的，又或者这张图片是用手机拍下来下来的，变得歪歪扭扭，所以需要进行图片预处理，把文本位置矫正，把噪声去除，然后才可以进行进一步的字符分割和文...

2019-02-07 01:50:55 5678 1

转载 OCR技术（一）

什么是OCR？OCR英文全称是Optical Character Recognition，中文叫做光学字符识别。它是利用光学技术和计算机技术把印在或写在纸上的文字读取出来，并转换成一种计算机能够接受、人又可以理解的格式。现在这技术已经比较成熟。实际应用：比如一个手机APP就能帮忙扫描名片、身份证，并识别出里面的信息；汽车进入停车场、收费站都不需要人工登记了，都是用车牌识别技术；我们看书时看到不懂...

2019-02-07 00:40:00 27450 1

原创 An End-to-End Trainable Neural Network for Image-based Sequence Recognition

Abstract基于图像的序列识别一直是计算机视觉中长期存在的研究课题。在本文中，我们研究了场景文本识别的问题，这是基于图像的序列识别中最重要和最具挑战性的任务之一。我们一种新颖的神经网络架构，集成了特征提取，序列建模和转换的统一框架。与以前的场景文本识别系统相比，所提出的架构具有四个独特的属性：（1）它是端到端可训练的，与大多数现有算法相反，其中的组件是单独训练和调整的。（2）它自然地处理任意...

2019-02-03 16:45:40 6272

myc的博客