计算机视觉
Android_chunhui
人不一定能什么都擅长,有自己的特点就好!
展开
-
Trick系列-OHEM方法
[外链图片转存失败(img-qIs6ZwYb-1563937170568)(https://github.com/chunhui204/chunhui204.github.io/blob/master/images/ohem2.PNG)]注意ohem是基于fast rcnn的,如果使用RPN性能应该会更高。骨架网络使用的是VGG16和VGG_M,这是基于alexnet的辩题。OHEM VS 经...原创 2019-07-24 10:59:58 · 248 阅读 · 0 评论 -
【arXiv2016】Accurate Text Localization in Natural Image with Cascaded Convolutional Text Network
Introduction 自底向上方法(bottom-up)的流程: - 通过MSER或SWT检测器检测字符或笔画特征。低级特征(像素级)不稳定,易受光照等影响。- 使用字符级分类器滤除非文本的假阳性检测。 由于上一步会产生几十倍文本区域数量的非文本区,所以会给分类器带来巨大挑战(可能是由于不平衡问题)。- 将剩余字符区域聚合成文本行。需要引入启发式规则和几何特征,以及手工设计的聚合...原创 2019-07-24 15:35:57 · 379 阅读 · 0 评论 -
Scene Text Detection via Holistic, Multi-Channel Prediction
这是将文本检测看做语义分割问题的第三篇(前两篇是text detection with FCN和cascade CNN),模型运行在整张图上产生全局的像素及预测。本文提取了文本的三种特征:文本块特征、字符区域和两者关系,和text detection with FCN相似,只是改进了字符区域聚合的方法。本文思路:使用一个网络产生文本块,字符区域和连接方向的显著图,将字符区域手工聚合成文本行,并结...原创 2019-07-24 15:30:20 · 868 阅读 · 0 评论 -
CVPR2016】Multi-Oriented Text Detection with Fully Convolutional Networks
Introduction通过手工设计的字符特征训练字符分类器,以及通过文本行的对称性、自相似性来区分text/non-text,可以看出局部信息(字符区域)和全局信息(文本块)都对文本检测有帮助作者认为在文本检测中使用字符分类器的思路(或者应该说是bottom-to-up思路)已经行不通,原因有:字符特征易受到不均匀光照、低分辨率和不连续笔画的影响;相似于字符的背景,树叶,砖块等;字符本...原创 2019-07-24 15:27:16 · 506 阅读 · 0 评论 -
RefineDet
1 introduce目标检测中类别不平衡是很常见的问题,无论在one-stage还是two-stage一二阶段negative bbox数量都远高于positive。这无法直接计算类别loss, 很常见的是使用negative hard mining挑选出一部分negative框进行计算。在RPN中我们使用随机挑选的方式,保证参与计算loss的正负样本比1:1,在SSD中(忘了再看一看),本文...原创 2019-07-24 15:22:13 · 465 阅读 · 0 评论 -
Spatial-Transform-Network
Introduce传统pooling层:把feature map分割成网状cell并从每个网格中简化信息。它会丢弃75%(2x2)的激活特征,在位置信息不重要的前提下会增加空间的鲁棒性,不管目标出现在什么位置都能获得相似的特征。但是对于某些任务位置信息是相当重要的,比如在猫分类器中,就无法知道胡子相对于鼻子的位置(在同一cell被池化)。池化kernel 是局部的,固定的,空间不变性要在...原创 2019-07-24 14:38:55 · 532 阅读 · 0 评论 -
Arbitrary-Oriented Scene Text Detection via Rotation Proposals
bounding box表示使用(x,y,w,h,θ)(x,y,w,h,\theta)(x,y,w,h,θ) 四点坐标方式表示bbox,其中(x,y)(x,y)(x,y) 为bbox中心坐标,不是左上角坐标,因此不用考虑文本方向降低了标注难度;w,hw,hw,h 分别为长边,短边;(旋转bbox这样定义,对水平bbox水平方向为w垂直方向h)角度范围只要覆盖180度即可,关键在于如何取角...原创 2019-07-24 14:34:50 · 480 阅读 · 0 评论 -
STN-RPN
STN层能对扭曲输入做放射变换,据说能很大程度上提高检测精度,做了一些STN和RPN结合的调研。Region Based CNN for Foreign Object Debris Detection on Airfield Pavement应用性论文,创新不大主要应用价值高。算法上没什么创新理论部分就得把各个模块的内容在复述一遍。[外链图片转存失败(img-uKieCbSQ-1563938...原创 2019-07-24 11:23:38 · 222 阅读 · 0 评论 -
STN text detection
文本检测和一般目标检测的不同文本线是一个sequence(字符、字符的一部分、多字符组成的一个sequence),而不是一般目标检测中只有一个独立的目标。 这既是优势,也是难点。优势体现在同一文本线上不同字符可以互相利用上下文,可以用sequence的方法比如RNN来表示。难点体现在要检测出一个完整的文本线, 同一文本线上不同字符可能差异大,距离远,要作为一个整体检测出来难度比单个目标更大。(字符...原创 2019-07-24 11:10:57 · 236 阅读 · 0 评论 -
R-FCN
IntroductionRCNN系列存在两个问题:1. 分类任务要求平移不变性而检测任务必须对位置敏感,因为目标位置改变的话预测坐标必须随之变化。用resnet做检测任务时将ROI pooling置于卷积层之间,因为ROI POOLING后是region级训练,每一个region跑一遍后面的网络,当region改变时预测坐标自然跟着改变。 2. ROI POOLING层前是计算共享的,即整张...原创 2019-07-24 11:08:09 · 151 阅读 · 0 评论 -
MASK_RCNN
network外链图片转存中…(img-YdWLPRya-1563937279256)]mask rcnn与faster rcnn的第一点不同是:使用了更强大的骨架网络resnet101+fpn,上图左边是resnet50为骨架网络的结构,右边是resnet101+fpn为骨架网络的结构。第二点是:ROI AlignROI Pool做的事是将原图上的ROI映射到最后一层的特征图上,由于...原创 2019-07-24 11:03:20 · 317 阅读 · 0 评论 -
疲劳驾驶检测
疲劳驾驶检测结合眼睛的闭合状态和嘴巴闭合状态,综合判断驾驶人员的疲劳状况。Qt编写界面,tensorflow,opencv和dlib实现人脸的检测和特征点提取。github地址:https://github.com/chunhui204/fatigue-detection运行流程:主线程:打开摄像设备,将图片加入处理队列。线程1:从图片队列中获得图片进行人脸的检测和追踪,并将检测结果加入...原创 2019-08-11 22:39:35 · 4738 阅读 · 9 评论