图像处理
sparkexpert
大数据挖掘技术(人工智能)的爱好者
展开
-
AI+CV: 谷歌数据增强文章的实践
数据增强是机器学习中常用的Trick,特别是用于样本不足的情况下的一种提升机器学习模型性能的重要手段。看了谷歌开源的数据增强文章,里面已经实现得比较全的,做了简单实验,效果还是不错。从其开放代码(https://github.com/tensorflow/tpu/blob/master/models/official/efficientnet/autoaugment.py)中可以看出,该类已经...原创 2019-11-27 21:03:04 · 741 阅读 · 1 评论 -
空洞卷积与DeeplabV2实现图像语义分割的测试(tensorflow)
图像语义分割是对图像像素级理解的基础,也是图像处理的高阶操作。自从深度学习出来之后,已经有了不少的基于卷积网络的图像语义分割模型,如从全卷积网络到大型卷积核:深度学习的语义分割全指南这篇文章介绍了非常多的模型。本篇博客只对空洞卷积进行多尺度背景聚合(Multi-Scale Context Aggregation by Dilated Convolutions)和DeepLab2(D原创 2017-07-20 11:41:00 · 12512 阅读 · 1 评论 -
Photographic Image Synthesis with Cascaded Refinement Networks(由语义分割图生成逼真街景图)
在生成真实图像方面,常用的都是无监督模型,如GAN,VAE等。 然而ICCV2017的这篇文章,同样是从图像(图像分割结果的语义标注图)到原始的街景图像的转换,它并没有依靠生成对抗网络(GAN)以训练generator与discriminator network的方式来做image-to-image,而是采用了一种级联精练网络Cascaded Refinement Network (CR原创 2017-08-25 23:01:54 · 5148 阅读 · 1 评论 -
Mask R-CNN(目标检测,语义分割)测试
Kaiming He的大作Mask R-CNN(https://arxiv.org/pdf/1703.06870.pdf)已经放出来一段时间了,最近才有空进行代码学习和编译。 图像目标检测是图像识别的核心任务之一,之前就对这以方面进行总结和测试(http://blog.csdn.net/sparkexpert/article/details/71642431)。从上面的图可原创 2017-12-21 11:13:09 · 8029 阅读 · 0 评论 -
基于CNN的图像滤境操作之去噪声
图像去噪声是图像增强、图像重建的重要内容之一,在现实中,很多图像难免存在噪声的问题,从而影响了图像的判别。当然图像去噪声在现有的图像处理软件中也比较成熟。 找到了一篇基于CNN的图像去噪声的论文,FFDNet: Toward a Fast and Flexible Solution for CNN based Image Denoising,对其结果进行复现,效果挺不错的。特记录如下: 在...原创 2018-04-05 10:19:56 · 7345 阅读 · 4 评论 -
基于CNN的图像增强之去模糊
图像模糊产生的原因非常多, 主要如下:(1)相机抖动. □ 拍摄时相机不稳. □ 全部画面被模糊. (2)物体的运动. □ 部分物体运动. □ 不同区域模糊不同. (3) 镜头失焦. □ 大光圈小景深时的效果. 等等。今天在看Learning Deep CNN Denoiser Prior for Image Restoration (CVPR, 2017) 的文章,里面涵盖的内容非常全,其中模糊...原创 2018-04-05 11:20:53 · 16461 阅读 · 5 评论 -
基于CNN的图像超分辨率重建
图像尺寸变大且变清晰是图像处理的内在需求之一,然而现有的图像分辨率固定的情况下,从低分辨率到高分辨率的扩展常伴来了模糊、噪声的问题,即Single image super-resolution (SISR) aims to recover a high-resolution (HR) version of a low-resolution (LR) input. 因此深度学习架构下的图像超分辨...原创 2018-04-05 15:33:31 · 5815 阅读 · 2 评论 -
视频生成(Generating Videos with Scene Dynamics)实践
视频生成与视频识别是视频分析的两大任务,前者侧重于对下一帧的预测,而前者则侧重于视频内容的理解。由于视频是由一系列的视频帧组成的,那么如果有大量的视频数据,通过分析视频中动态场景的变化情况,就可以合成出一些小的动态场景视频。这也是论文Generating Videos with Scene Dynamics(http://carlvondrick.com/tinyvideo/paper.pdf)的...原创 2018-06-27 21:06:11 · 6314 阅读 · 5 评论 -
基于深度学习的实现影像地图道路提取
原创 2018-06-27 23:21:04 · 21504 阅读 · 29 评论 -
基于Dual Path Networks(DPN)的图像识别模型实践
图像识别模型已经非常多了,但是看到对于DPN的下面表述,动起了将它复现一下的念头:DPNs helped us won the 1st place in Object Localization Task in ILSVRC 2017, with all competition tasks within Top 3. (Team: NUS-Qihoo_DPNs)可见,DPN在2017的ILSVRC比...原创 2018-06-28 20:42:52 · 1874 阅读 · 0 评论 -
ffmpeg每隔几帧(间隔)提取图片的方法
在一些视频分类任务中,往往需要从视频中提取指定帧,提取RGB信息然后进行训练和分类。提取帧的方法有很多,不过在一些对时间限制比较大的场合,为了提高速度,会采用ffmpeg的方法来进行提取,因为目前它是相对最高效的办法。ffmpeg提供了每隔几帧抽取的办法,但是这个函数没有现成的,在网上找了好久才自己完成。现将该脚本撰写如下:ffmpeg -i 10021502.mp4 -vf "...原创 2018-11-09 08:31:11 · 17082 阅读 · 2 评论 -
目标检测框架mmdetection框架的安装与测试
最近利用Conda终于成功安装了mmdetection,说实话,非conda的还真的不好装,特别在.complie的时候,即使成功,总是会出现各种问题,直到conda安装后,才明白之前的问题关键所在,即必须numpy为1.16.2版本,且pytorch需要为1.0版本。之前从release版本中下载了0.4.1的版本,还是有问题。1、框架介绍这个框架还是非常清晰的,整个代码从骨架,模型,B...原创 2019-03-06 16:23:27 · 12470 阅读 · 22 评论 -
图像目标检测之cascade-rcnn实践
最近一直在调试目标检测方面的模型,其中mmdetection中就集成了许多的目标检测模型。其中表现比较好的模型中有cascade-rcnn,因此也趁这个机会具体了解一下这个模型的发展脉络。1、模型原理在two-stage模型中,常见都会预测得到一些目标对象的候选框,这个候选框跟真实值之间一般通过交叉面积(IOU)的计算来判断该框是否为正样本,要保留的候选框。常见的IOU参数设置一般是0.5...原创 2019-03-15 15:37:57 · 4743 阅读 · 2 评论 -
基于MSRCR的图像低光照增强实验
在计算机视觉处理中,常常需要对低光照图像进行数据增强,如夜晚灯光昏暗条件下的图像识别检测等。采用成熟的MSRCR算法来实现。1.MSRCR算法原理MSRCR是Multi-Scale Retinex with Color Restore的缩写。其中Retinex 是1971年提出的色彩恒常理论,其基本内容是物体的颜色是由物体对长波(红)、中波(绿)和短波(蓝)光线的反射能力决定的,而不是...原创 2019-07-04 17:21:21 · 1644 阅读 · 1 评论 -
基于C3Framework开源人群计数框架的测试
C3Framework是一个开源的人群计数框架,在进行代码复现的时候,进行单张图片的测试。1. C3Framework中的算法根据官网介绍,在该框架中集成了若干个模型,其中有些模型的复现效果并没有论文上来得好。Method WE UCF50 MCNN (RGB Image) TBD TBD AlexNet (conv5) TBD TBD ...原创 2019-07-17 12:47:02 · 1262 阅读 · 1 评论 -
基于DeepStream的CNN的可视化理解
对CNN进行可视化是一项重要的工作,有助于理解深度学习模型的黑箱里面到底是什么东西。有个著名的工具是:deep-visualization-toolbox里面还实现了对各种类别的展示,同时还有个遮挡的实验,令人印象深刻。 此外,只用tensorflow的deepstream来学习一下CNN的模型到底都有哪些东西。代码可以看:https://github.com/tensorflow/te原创 2017-07-06 11:02:00 · 3708 阅读 · 0 评论 -
基于tensorflow的视觉问答系统构建
视觉问答(Visual Question Answering,VQA),是多模态数据挖掘的前沿应用之一,里面涉及计算机视觉和自然语言处理的学习任务。VQA系统需要将图片和问题作为输入,结合这两部分信息,产生一条人类语言作为输出。针对一张特定的图片,如果想要机器以自然语言来回答关于该图片的某一个特定问题,我们需要让机器对图片的内容、问题的含义和意图以及相关的常识有一定的理解。现有视觉问答原创 2017-06-26 15:02:01 · 4944 阅读 · 3 评论 -
Ubuntu环境下OpenCV 3.2版本中CMake error the source directory does not exist
最近想编译安装一下OpenCV,发现用了CMake问题很多,网上对这一块都没有具体介绍,后来才发现是一个简单的白痴问题,因此将问题在此记录一下。关于OpenCV的安装文档特别多。无非都是以下几步:(1) 下载opencv, opencv-contrib源码。(2) 提前安装一些库:主要有:sudo apt-get install build-e原创 2017-04-28 21:57:39 · 43786 阅读 · 28 评论 -
python3 下 tensorflow slim inceptionV4 问题修正与测试
自从残差网络出来之后,好多人就想着能不能对模型进行结合测试一下。Google Research的Inception模型和Microsoft Research的ResidualNet模型两大图像识别杀器结合效果如何?在这篇2月23日公布在arxiv上的文章“Inception-v4, Inception-ResNet and the Impactof Residual Connections原创 2017-04-18 16:19:19 · 3937 阅读 · 1 评论 -
基于tensorflow实现图像风格的变换
Leon A. Gatys, Alexander S. Ecker, 和 Matthias Bethge等人的论文“A Neural Algorithm of Artistic Style”开创了图像艺术风格转换的途径,自此之后,利用深度学习相关模型和处理方法,可以实现用计算机代替传世画家的野心。印象派、野兽派、浮世绘、波普、解构主义,曾经艺术风格曾经都是画家脑中不可捉摸的概念。而到了人工原创 2017-04-15 20:53:56 · 3986 阅读 · 1 评论 -
基于tensorflow + Vgg16进行图像分类识别的实验
图像分类识别目前已经得到了很大的飞跃,特别是15年微软提出的resnet已经超越人类,能够对图像中的物体进行更好的识别。为了初步了解一下图像分类识别的过程,学习了一下大牛的主页,发现还是很有意思的。而且从imagenet的角度来说,这个经度还是可以接受的。本实验主要参照了这个网页https://www.cs.toronto.edu/~frossard/post/vgg1原创 2017-04-17 11:03:30 · 42957 阅读 · 16 评论 -
图像目标检测技术进展(课件总结PPT)
为了更好地理解整个图像目标检测技术的进展,综合网上各种资料,完成了课件。在此分享一下。原创 2017-05-11 17:12:44 · 7420 阅读 · 6 评论 -
google图像新压缩技术RAISR的测试
不久前,Google刚刚发布了一种名为RAISR(Rapid and Accurate Super Image Resolution,意为“快速、精确的超级图像分辨率技术”)的图像压缩技术,旨在保存宝贵的数据,而不牺牲照片质量;并在带宽受限的移动设备上提供清晰锐利的图像。Google声称,该技术可以降低高达75%的带宽,RAISR分析同一图像的低分辨率和高分辨率版本,了解到高分辨率版本原创 2017-04-26 10:27:27 · 11409 阅读 · 3 评论 -
pix2pix tensorflow试验(GAN之图像转图像的操作)
GAN是一种典型的概率生成模型,其核心思想是:找出给定观测数据内部的统计规律,并且能够基于所得到的概率分布模型,产生全新的,与观测数据类似的数据。概率生成模型可以用于自然图像的生成。假设给定1000万张图片之后,生成模型可以自动学习到其内部分布,能够解释给定的训练图片,并同时生成新的图片。与庞大的真实数据相比,概率生成模型的参数个数要远远小于数据的数量。因此,在训练过程原创 2017-04-27 09:08:45 · 19017 阅读 · 3 评论 -
基于tensorflow 1.0的图像叙事功能测试(model/im2txt)
作为多模态数据处理的经典,图像自动打标签(图像叙事功能)一直是一项非常前沿的技术,涉及到机器视觉,自然语言处理等模块。幸运的是,谷歌基于tensorflow将此项功能进行开源。https://github.com/tensorflow/models/tree/master/im2txt#generating-captions该功能的英文介绍如下:The Show and原创 2017-04-27 11:18:47 · 6954 阅读 · 13 评论 -
ubuntu中eclipse环境下import cv2后opencv函数调用失败问题解决办法
当前opencv的安装已经非常方便,特别是python版本。主要是pip已经提供了opencv-python的包,直接可以免编译实现对opencv的安装。如https://pypi.python.org/pypi/opencv-python网页中提供了多个链接的下载安装办法。opencv_python-3.2.0.7-cp36-cp36m-manylinux原创 2017-06-06 16:15:24 · 1819 阅读 · 1 评论 -
基于Tensorflow的CycleGAN测试(非成对图像风格迁移:橙子--> 苹果)
图像风格迁移有两种大的类型,一种是成对的,一种是非成对了。成对的著名模型就是pix2pix,这种的例子,如从影像地图转换为矢量地图,从素描转换为纹理图等。这些的特点就是训练数据集之间的成对的。而非成对的,就是如从不同物体之间的转换,如从橙子转换为苹果,或者不同季节之间的切换。(http://img.mp.itc.cn/upload/20170527/6936b81df19f40原创 2017-06-02 16:39:10 · 7288 阅读 · 0 评论 -
基于MTCNN的人脸自动对齐技术原理及其Tensorflow实现测试
人脸识别是计算机视觉研究领域的一个热点。而人脸识别包含了诸多步骤,下图所示(摘自http://www.techshino.com/upfiles/images/%E4%BA%BA%E8%84%B8%E8%AF%86%E5%88%AB%E6%8A%80%E6%9C%AF%E6%B5%81%E7%A8%8B(2).png):原创 2017-06-28 17:16:21 · 15414 阅读 · 9 评论 -
基于tensorflow的人脸识别技术(facenet)的测试
人脸识别的应用非常广泛,而且进展特别快。如LFW的评测结果上已经都有快接近99.9%的。Uni-Ubi600.9900 ± 0.0032FaceNet620.9963 ± 0.0009Baidu640.9977 ± 0.0006AuthenMetric650.9977 ± 0.0009MMDFR670.9902原创 2017-06-29 10:56:36 · 31959 阅读 · 6 评论 -
图像语义分割的研究进展(课件PPT)
原创 2017-07-04 09:07:49 · 4630 阅读 · 3 评论 -
tensorflow model中目标对象检测包的编译和测试
前段时间,谷歌开放了 TensorFlow Object Detection API 的源码,并将它集成到model中。这个代码库是一个建立在 TensorFlow 顶部的开源框架,方便其构建、训练和部署目标检测模型。设计这一系统的目的是支持当前最佳的模型,同时允许快速探索和研究。在其官方文档说明书上面说明了提供的几个模型:In addition to our base T原创 2017-06-25 20:51:56 · 6726 阅读 · 0 评论 -
Tensorflow用于黑白照片(灰度图)着色的测试
视觉效果一直是计算机视觉研究的一个重要领域,如风格迁移等已经是各大顶会的重要栏目。 本篇文章主要用于探索黑白照片着色的功能。 如何给黑白照片上色,如对早先的照片进行更好的渲染,可以便得宝贵的历史影像资料变得更加鲜活,视觉感官更好。 现有的主流模型挺多的,如https://github.com/baldassarreFe/deep-koalarizat原创 2017-07-05 16:06:44 · 12078 阅读 · 7 评论 -
OpenCV在Python上的调用( import cv2的解决办法)
OpenCV是一个图像处理的经典库,而且关键是一直在升级。为了在Python中调用opencv,特别是看到好多代码都是import cv2,而这个在python中是无法直接进行pip install安装的。查了下,才知道需要从opencv库中进行拷贝,具体操作如下:将Opencv安装目录下opencv\build\python\2.7\x86中的cv2.py原创 2016-06-22 21:07:47 · 94948 阅读 · 16 评论