![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器视觉
文章平均质量分 59
Star_ACE
一个缺乏创造力的程序猿
展开
-
机器视觉,计算机视觉,人机交互的关系
由于最近毕业设计打算写一遍有关手势识别完成人机交互的论文,看了一些网上的论文,大量论文提及机器视觉和计算机视觉,然而发现自己对这方面的定义不清楚,所以上网搜了下,把自己理解写下来。 机器视觉(Machine Vision, MV)机器视觉就是用机器代替人眼来做测量和判断,注意是测量和判断,所以一般来说,该主要用于工厂检验产品之类,主要是针对一些单一场景。所以精准度来说还是比较高。 ...原创 2017-03-22 21:38:01 · 4064 阅读 · 1 评论 -
EAST: An Efficient and Accurate Scene Text Detector
这篇论文发表于2017年的CVPR,文章提出了一个高效精确的场景文字检测器。可以快速精确的产生文字追踪。该方法使用单个神经网络直接从整幅图片中预测任意方向的四边形文本行,消去了不必要的中间步骤(候选区域聚合和单词的分割)。该方法注重设计损失函数和神经网络体系结构。实验在包括ICDAR2015,COCO-Text和MSRA-TD500等经典数据集上,验证了提出的算法不管是在精度还是效率上都有着特别好...原创 2019-01-27 22:07:26 · 374 阅读 · 0 评论 -
An End-to-End Trainable Neural Network for Image-based Sequence Recognition
Abstract基于图像的序列识别一直是计算机视觉中长期存在的研究课题。在本文中,我们研究了场景文本识别的问题,这是基于图像的序列识别中最重要和最具挑战性的任务之一。我们一种新颖的神经网络架构,集成了特征提取,序列建模和转换的统一框架。与以前的场景文本识别系统相比,所提出的架构具有四个独特的属性:(1)它是端到端可训练的,与大多数现有算法相反,其中的组件是单独训练和调整的。(2)它自然地处理任意...原创 2019-02-03 16:45:40 · 6249 阅读 · 0 评论 -
OCR技术(CTPN,SegLink,EAST文本检测)
文字识别分为两个具体步骤:文字的检测和文字的识别,两者缺一不可,尤其是文字检测,是识别的前提条件,若文字都找不到,那何谈文字识别。今天我们首先来谈一下当今流行的文字检测技术有哪些。文本检测不是一件简单的任务,尤其是复杂场景下的文本检测,非常具有挑战性。自然场景下的文本检测有如下几个难点:文本存在多种分布,文本排布形式多样;文本存在多个方向;多种语言混合。我们先从直观上理解文本检测任务。...转载 2019-02-15 13:46:50 · 5599 阅读 · 1 评论 -
OCR技术(一)
什么是OCR?OCR英文全称是Optical Character Recognition,中文叫做光学字符识别。它是利用光学技术和计算机技术把印在或写在纸上的文字读取出来,并转换成一种计算机能够接受、人又可以理解的格式。现在这技术已经比较成熟。实际应用:比如一个手机APP就能帮忙扫描名片、身份证,并识别出里面的信息;汽车进入停车场、收费站都不需要人工登记了,都是用车牌识别技术;我们看书时看到不懂...转载 2019-02-07 00:40:00 · 27413 阅读 · 1 评论 -
OCR技术(文字定位与切割)
要做文字识别,第一步要考虑的就是怎么将每一个字符从图片中切割下来,然后才可以送入我们设计好的模型进行字符识别。现在就以下面这张图片为例,说一说最一般的字符切割的步骤是哪些。当然,我们实际上要识别的图片很可能没上面那张图片如此整洁,很可能是倾斜的,或者是带噪声的,又或者这张图片是用手机拍下来下来的,变得歪歪扭扭,所以需要进行图片预处理,把文本位置矫正,把噪声去除,然后才可以进行进一步的字符分割和文...转载 2019-02-07 01:50:55 · 5529 阅读 · 1 评论 -
OCR技术(大批量生成文字训练集)
如果是想训练一个手写体识别的模型,用一些前人收集好的手写文字集就好了,比如中科院的这些数据集。但是如果我们只是想要训练一个专门用于识别印刷汉字的模型,那么我们就需要各种印刷字体的训练集,那怎么获取呢?借助强大的图像库,自己生成就行了!先捋一捋思路,生成文字集需要什么步骤:确定你要生成多少字体,生成一个记录着汉字与label的对应表。确定和收集需要用到的字体文件。生成字体图像,存储在规定的...转载 2019-02-07 22:06:07 · 5870 阅读 · 2 评论 -
机器学习中数据不均衡问题(分类类别数据不均匀)
在机器学习中,我们经常会遇到类别数据分布不均衡问题,即某类中含有很多数据,而其他类别中的数据量很少。在这种情况下, 使用传统机器学习算法开发的预测模型可能存在偏差和不准确,造成上述的原因是,传统算法模型通过减少loss来提高准确性,他们并没有考虑到类别的分类不均问题。因此机器学习算法在面对不平衡的数据集时, 往往会产生不理想的分类器。标准分类器算法 (如决策树和逻辑回归) 倾向于只预测多数类数...原创 2019-02-19 01:38:39 · 11407 阅读 · 5 评论 -
Detecting Text in Natural Image with Connectionist Text Proposal Network(CTPN)
文本检测其中一个难点在于文本行的长度变化是非常剧烈的。因此如果是采用基于faster rcnn等通用物体检测框架的算法都会面临怎么生成好的text proposal的问题。论文Detecting Text in Natural Image with Connectionist Text Proposal Network提供了另外一个思路,检测一个一个小的,固定宽度的文本段,然后在后处理部分再将这些...转载 2019-01-26 22:34:38 · 1020 阅读 · 0 评论 -
EAST: An Efficient and Accurate Scene Text Detector翻译
Abstract用于场景文本检测的先前方法已经在各种基准测试中获得了良好的性能。然而,在处理具有挑战性的场景时,即使配备了深度神经网络模型,它们通常也会达不到很好性能,因为整体性能取决于管道中多个阶段和组件的相互作用。在这项工作中,我们提出了一个简单而强大的管道,可以在自然场景中产生快速准确的文本检测。算法流程直接预测完整图像中任意方向和四边形形状的单词或文本行,消除了使用单个神经网络的不必要的...原创 2019-01-31 17:38:08 · 3859 阅读 · 3 评论 -
Going Deeper with Convolutions笔记
摘要提出一种Inception的网络结构,该有提高神经网络的计算资源利用率,可以在计算资源固定的情况下,使网络变得更深、更广。这种结构的提出是基于赫布理论和多尺度处理直觉。其中GoogleLeNet,是Inception网络结构的一个特例。引言在目标检测的前沿,最大的收获不是简单的深层、更宽的神经网络的应用,而是深层结构与经典计算机视觉的协同作用,就例如R-CNN。 算法的性能非...原创 2018-09-01 20:45:47 · 2441 阅读 · 1 评论 -
Understanding and Improving Convolutional Neural Networks via Concatenated Rectified Linear Units阅读笔
摘要本文旨在深入研究卷积神经网络的特性,以及一种改进cnn结构性能的通用方法。具体而言,论文检查现有的cnn模型,并观察到一个有趣的性质,即低层中的滤波器形成对(即相反相位的滤波器)。在我们的观察的启发下,我们提出了一种新的、简单而有效的激活方案-CReLU,并从理论上分析了它在CNN中的重构性质。我们将Crelu集成到几个最先进的cnn架构中,并在CIFAR-10/100和ImageNet数...原创 2018-09-06 15:16:57 · 1459 阅读 · 1 评论 -
1x1卷积核的理解
1x1卷积核的作用主要有两点: 1、实现跨通道的信息融合 2、实现通道数的升维与降维 3、增加网络的非线性实现跨通道信息的融合:加入当前层的特征矩阵为224x224x100,而下一层想要得到224x224x50,这时就可以通过1x1的卷积核进行跨通道信息融合,当然这时也可以通过3x3或5x5的卷积核构建出符合下一层224x224x50的特征矩阵,但是使用1x1卷积核,起到了减少参数的...原创 2018-09-11 16:04:50 · 729 阅读 · 0 评论 -
Diverse Neuron Type Selection for Convolution Neural Networks阅读笔记
摘要受神经科学研究成果的启发下,论文引入并定义了两种具有不同激活功能的人工神经网络神经元:兴奋性神经元和抑制性神经元,其网络可以通过学习,自适应地选择不同种类的神经元函数。论文在神经元定义(生物角度上定义)的基础上,不仅探讨了主流激活函数,而且还讨论了这些类型神经元之间的互补性。 此外,通过兴奋性神经元与抑制性神经元的共同作用,论文提出一种组合激活函数。 最后,论文希望能为未来的神经元激活...原创 2018-09-06 15:17:08 · 273 阅读 · 0 评论 -
神经网络中Batch Size的理解
直观的理解: Batch Size定义:一次训练所选取的样本数。 Batch Size的大小影响模型的优化程度和速度。同时其直接影响到GPU内存的使用情况,假如你GPU内存不大,该数值最好设置小一点。为什么要提出Batch Size? 在没有使用Batch Size之前,这意味着网络在训练时,是一次把所有的数据(整个数据库)输入网络中,然后计算它们的梯度进行反向传播,由于在计算梯度时...原创 2018-09-09 14:57:33 · 221077 阅读 · 9 评论 -
Batch Size设置过大时,对神经网络性能的影响情况
之前的一片博文写了Batch Size的作用和应该如何设置比较合适,同时还有Batch Size大小,与学习率lrlrlr、训练次数epochepochepoch之间的关系。里面提及Batch Size越大,梯度的方向越准确。上述的说法是没错的,梯度方向准确,最后网络收敛情况好,但是收敛情况好并不意味网络的性能就好,网络收敛好意味着对训练数据作出了较好的拟合,但是并不意味着就会对测试数据作出很...原创 2018-09-10 22:43:28 · 13051 阅读 · 3 评论 -
空洞卷积与反卷积
空洞卷积(dilated conv),也称扩张卷积。空洞卷积可以在kernel有效增大感受野的同时不增加模型参数或者计算量。在图像需要全局信息或者语音文本需要较长的sequence信息依赖的问题中,都能较好的应用空洞卷积。在图像分割,语音合成WaveNet,机器翻译ByteNet中都有空洞卷积的身影。一般情况下,图片输入到网络中,网络将会对图像做卷积再池化(pooling)的操作,pooling...原创 2018-09-23 12:09:09 · 8414 阅读 · 0 评论 -
MTCNN论文阅读笔记
论文:Joint Face Detection and Alignment Using MultitaskCascaded Convolutional Networks简称MTCNN,是一个用于人脸检测与对齐的三级联CNN网络。论文主要提出一个从粗到细的级联多任务框架用于人脸的检测与对其,并提出online hard sample mining strategy,该策略可以提升性能。on...原创 2019-01-07 17:44:38 · 811 阅读 · 0 评论 -
Faster RCNN
一、背景Faster R-CNN是受Fast R-CNN的启发,而Fast R-CNN是受R-CNN启发。R-CNN是采用 Selective Search 算法来提取(propose)可能的 RoIs(regions of interest) 区域,然后对每个提取区域采用标准 CNN 进行分类。Fast R-CNN 是 R-CNN 的改进,其采用兴趣区域池化(Region of Inter...原创 2018-11-25 01:09:13 · 422 阅读 · 0 评论