图像
文章平均质量分 90
PeaceInMind
兴趣方向:图像,控制算法
展开
-
GAN稳定性训练理论入门
对GAN的理解还停留在一些警察抓小偷,cyclegan,pix2pixHD之类的层次,当自己想去独立写一个的时候发现自己对这块了解地非常肤浅。本文综合网上各种参考资料和论文,记录在本博客中,以促进自己的理解,不过自己想要想真正理解里面的内容,还是得对数学有系统的学习,不然只是生硬地知道这个公式这个定理,而不能形象理解,过三五个礼拜就忘了原创 2020-07-05 16:56:00 · 3162 阅读 · 0 评论 -
[水水博文]多方向文本检测自研结果
有很多不好的地方。目前不提供任何细节,请见谅。此方法在icdar15上的结果已上传至[link]主要目的是希望能认识相关的朋友进入文字识别这个领域,特别是中文文字识别,希望能与大家多多交流,求大牛指导,因为身边主要就是我自己在瞎搞,进步比较慢 ...原创 2017-05-18 23:49:15 · 3177 阅读 · 18 评论 -
域适配论文杂读(门外汉级)
要看的基于深度学习的adaptation和image translation方面的论文,希望能对这个领域最新的工作有个概念,主要给自己看。其实个人觉得解决这个问题真的不是重点,而是研究它的成因,以便在训练的过程中解决CNN泛化的问题才是本质 Table of Contents 未看或未总结 分类或分割[2018-arxiv] Adaptive Semantic S...原创 2018-04-02 20:06:42 · 4041 阅读 · 3 评论 -
视频理解论文杂读
图片到视频肯定是科研发展的方向,可惜需要的资源太多,主要关注动作识别方向未完成,主要给自己看[201905-arxiv] Unsupervised Learning from Video with Deep Neural EmbeddingsSelf-supervised Learning for Video Correspondence Flow[2019-arxiv]DistI...原创 2018-05-06 16:11:47 · 6881 阅读 · 0 评论 -
文字检测与识别资源
本文写成时主要参考了[1,2], 后面加了一些自己收集的,不过大家都在更新,所以区别不是很大。蓝色部分代表最近新增的部分综述自然场景文字检测自然场景文字识别数据集开源库其他手写字识别牌照等识别破解验证码参考[2015-PAMI-Overview]Text Detection and Recognition in Imagery: A Survey[...原创 2016-05-12 20:38:45 · 68887 阅读 · 27 评论 -
语义分割论文杂读
未看或未总结PSPnetDeeplab v3Path Aggregation Network for Instance SegmentationLarge Kernel Matters -- Improve Semantic Segmentation by Global Convolutional Networksegment everythingContext En...原创 2019-06-15 11:12:18 · 1991 阅读 · 2 评论 -
其他论文杂读
未看或未总结Secure Federated Transfer LearningFederated Learning of Deep Networks using Model AveragingCHIP: Channel-wise Disentangled Interpretation of Deep Convolutional Neural NetworksBatch Norma...原创 2019-06-15 13:04:53 · 899 阅读 · 2 评论 -
骨架和分类网络论文杂读
一些backbone的图解传送门未看或未总结:[201906-arxiv]Stand-Alone Self-Attention in Vision Models[paper]Res2Net: A New Multi-scale Backbone ArchitectureMobileNetV2[201906-arxiv] Does Object RecognitionWor...原创 2019-06-15 13:23:00 · 541 阅读 · 0 评论 -
物体检测论文杂读-非常少
对物体检测的工作不是特别熟悉,特别是不同工作对应的性能还没有记住。Feature Selective Anchor-Free Module for Single-Shot Object DetectionMask Scoring R-CNNGeneralized Intersection over Union: A Metric and A Loss for Bounding Box ...原创 2019-06-15 13:24:37 · 705 阅读 · 0 评论 -
卷积层感受野和坐标映射
转载自http://blog.cvmarcher.com/posts/2015/05/17/cnn-trick/如有版权问题,请联系博主删除本博客Receptive Field (感受野)这是一个非常重要的概念,receptive field往往是描述两个feature maps A/B上神经元的关系,假设从A经过若干个操作得到B,这时候B上的一个区域area b 只会跟转载 2015-12-26 17:26:09 · 5920 阅读 · 4 评论 -
文字检测与识别2-字符过滤
导语在上一章节中我们介绍了怎么在一幅图片中提取潜在的字符(character proposals)。一般情况下基本上都会发生两种不想要的情况。第一种就是有些字符没提取出来,称之为false negative,这个可以通过多通道(如梯度幅值或者其他颜色通道)提取MSER来减轻。另外一种是提取出来的字符有很多不是真的字符,称之为false positive,这个需要一些过滤算法来过滤.这一原创 2015-11-23 23:06:04 · 8621 阅读 · 6 评论 -
文字检测与识别3-字符合并
1导语前两节我们分别解释了字符提取和字符过滤,在这过程中主要有=两个原因需要我们将单个字符组合成一个文字行或者段落之类(如图1)。一个重要的原因是出来不管是由于MSER的原因还是分类器的原因,有些真的字符并没有找出来,比如i和j上面的点等等,当然实际中情况要远比这些严重的多,我们需要靠字符合并来恢复这些漏掉的字符。另外一个原因是在识别的时候有上下文会大大增加识别的精度,比如一个0,有时原创 2015-12-21 19:55:27 · 7268 阅读 · 0 评论 -
文字检测与识别4-过分割和beam search
前面的章节已经介绍了提取文本行的方法。本文主要介绍传统的依赖over segmentation过分割,beam search和字符分类器的识别方法。主要参考文献[1]和opencv contribute中text module中的代码[5]。一般情况下我们会通过二值化,投影、连通域分割,分类器判别这套程序来做文字识别,但是一方面二值化现在还没有一统江湖的方法,另一方面就算某些情况下二值化做原创 2016-05-08 21:05:32 · 7150 阅读 · 1 评论 -
文字检测和识别5-LSTM简介
导语LSTM[1]作为RNN的经典模型,已经应用在了很多领域,如语音识别[2],OCR[3][4],图像描述[5],手写字识别[6],翻译[7],自然语言处理等等。在线手写字识别[11]图像内容描述[5] 1为什么需要LSTM 1.1时序问题如果接到一个时序问题时,比如语音识别,我首先会想着先切割,然后每一段每一段地去识别,但是原创 2016-03-10 17:13:33 · 13901 阅读 · 0 评论 -
FASText(下):FASText
0导语上一篇我们已经大致介绍了FAST角点,原始的FAST能处理一些带角点的的字母如L,P,但是很难处理o,和8等情况。以o为例,见下图,像素值会被截成四个部分,这样的话就很难满足原始的Fast角点需要连续多个点都要亮或暗的要求。另外由于Fast角点不是专门为定位文本设计,因此也会有很多的false postives.基于这些观察,FASText作者在Fast角点的基础上定制了两种角点SEK(...原创 2016-07-22 19:32:04 · 3906 阅读 · 16 评论 -
FASText(上) : Fast 角点
0 导语本文主要介绍论文FASText:Efficient Unconstrained Scene Text Detector[pdf][code],其核心思想是定制化fast角点使其更有利于场景文字的检测。因此本文主要分上下两篇,第一篇先介绍fast角点,并剖析其opencv(2.4.10)的代码,下篇再介绍FSAText.首先我们直观感受下FASText和Fast角点,参数原创 2016-07-14 17:07:30 · 5795 阅读 · 6 评论 -
文字检测与识别1-MSER
导语文字识别在现实场景中的用途非常广泛,现在已经有很多公司将这项技术用于实际中。比如车牌识别,图片转换成文档,拍照搜题,拍照翻译等。这让很多人有了错觉,感觉文字识别的技术已经炉火纯青,可以广泛应用。其实不然,车牌识别里面字体和字的类型比较单一,并且有一些矩形等辅助的特征。而拍照翻译的图片一般是文档类型,较容易识别,但也有不小的错误率。文字识别的首要问题是找到文字,其次才是识别。而在自然场...原创 2015-11-19 20:10:00 · 29091 阅读 · 21 评论 -
自创-CRBM 玩flappy bird
1 导语这个实验是14年上半年在公司实习做的,很多都已经忘记了,就基本参考以前的总结写在这。用机器学习去玩游戏最牛掰的当属google deep mind的DRL[1]系列,这个是完全图像输入,我等也只能膜拜的份。博主这个实验是用的是人工特征,因此与DRL不可同日而语,效果也不是很好,不过个人觉得这个实验还是挺有趣的,又没有license的问题,所以在这里分享给大家。这里面的思想很简单,就是得...原创 2016-01-02 13:39:02 · 1709 阅读 · 0 评论 -
[水文]基于语义的物体检测笔记
很早之前写的个人笔记,主要是对"语义物体检测"中个人不理解地方的注释,而不是一篇介绍性的文章。论文”from rigid templates to grammars : object detection with structured models“。。论文作者的工程在http://people.cs.uchicago.edu/~rbg/latent/原创 2015-11-15 12:39:38 · 1778 阅读 · 0 评论 -
[论文复现]Detecting Text in Natural Image with Connectionist Text Proposal Network
最近一直在复现这篇论文,除了数据外已基本完成,可是没想到昨天开源了[code],不过作者不公开对于识别很重要的side refinement模块,算是一个阉割版,附上个人的一些中间结果(只训练了200多张图片,网络架构,参数等跟作者的有些出入),主要是这篇论文步骤比较简单,如果比较清楚RPN,基本没什么说的。论文的思想主要借鉴了faster rcnn的rpn思想,主要的不同点在于作者观测到...原创 2016-11-18 12:52:40 · 9552 阅读 · 31 评论 -
[水文]生成模型1-PixelRNN
这里主要记录阅读NIPS 2016 Tutorial: Generative Adversarial Networks[1][视频]的一些笔记,还没有很好的理解导语GAN应该是这两年深度学习最火热的技术了,虽然不研究这块,但是看看应该没多大坏处。它有很多非常有意思的应用。比如在[4]中的一个应用是我比较喜欢的,就是画画[youtube]首先第一步我们在底下画了几条绿线,...原创 2017-03-03 19:30:48 · 11202 阅读 · 4 评论 -
最小割与最大流(mincut & maxflow)
这里先介绍mincut和maxflow,为介绍Grabcut打下基础。Grabcut可以用在图像分割和文字二值化中。 1首先介绍Mincut问题。这部分内容主要翻译自[1],可以看原版理解的更深.由于个人没有看过中文教材,因此可能一些专业术语翻译的不太对,敬请见谅。一个有向图,并有一个源顶点(source vertex)和目标顶点(target vertex).边的权值为正,又称之为容量(capa...翻译 2015-11-30 19:33:35 · 9724 阅读 · 5 评论 -
深度学习分类网络
主要介绍一些分类网络,并计算了FLOPS,参数个数和感受野信息,方便大家查询。很多本人没有用过,另外也没有认真校对,有可能有错误。感受野的公式应该有错误,大家可以忽略1 VGG-16VGG[1]是非常经典的模型,是2014 ImageNet的亚军,其中当属VGG16应用最广泛。核心思想:小核,堆叠。主要分成5个stages,22333,13个卷积层,16的意思应该是加上3个...原创 2017-09-24 20:18:52 · 19581 阅读 · 5 评论 -
Grabcut
1导语 想跟偶像合影,但是一直没有机会,怎么办?PS,太复杂,不太会。美图秀秀,只能增白磨皮。最后还是编程靠谱这里用的技术就是Grabcut。Grabcut主要是一种交互式分割算法,用户需要圈出自己想要分割的东西,grabcut会迭代地将其分割出来,并且迭代过程中用户可以交互。下图实验中只是圈出矩形,并未交互,可以看出算法效果还是非常鲁棒的。原创 2015-12-01 21:10:31 · 9794 阅读 · 5 评论