雪饼ai-CSDN博客

原创【AI实战】手把手教你深度学习文字识别（文字检测篇：基于MSER, CTPN, SegLink, EAST等方法）

文字检测是文字识别过程中的一个非常重要的环节，文字检测的主要目标是将图片中的文字区域位置检测出来，以便于进行后面的文字识别，只有找到了文本所在区域，才能对其内容进行识别。文字检测的场景主要分为两种，一种是简单场景，另一种是复杂场景。其中，简单场景的文字检测较为简单，例如像书本扫描、屏幕截图、或者清晰度高、规整的照片等；而复杂场景，主要是指自然场景，情况比较复杂，例如像街边的广告牌、产品包装...

2019-07-11 19:34:03 19049 8

原创大话文本检测经典模型：EAST

自然场景的文本检测是当前深度学习的重要应用，在之前的文章中已经介绍了基于深度学习的文本检测模型CTPN、SegLink（见文章：大话文本检测经典模型CTPN、大话文本检测经典模型SegLink）。典型的文本检测模型一般是会分多个阶段（multi-stage）进行，在训练时需要把文本检测切割成多个阶段（stage）来进行学习，这种把完整文本行先分割检测再合并的方式，既影响了文本检测的精度又非常耗...

2019-06-20 13:12:42 2798

原创大话文本检测经典模型：SegLink

在自然场景中，例如灯箱广告牌、产品包装盒、商标等，要检测出其中的文字会面临着各种复杂的情况，例如角度倾斜、变形等情况，这时就需要使用基于深度学习的方法进行文字检测。在之前的文章中，介绍了基于卷积神经网络和循环神经网络的CTPN文本检测方法（见文章：大话文本检测经典模型 CTPN），该方法能在自然场景下较好地实现对文字的检测，但在CTPN中给出的文本检测效果是基于水平方向的，对于非水平的文本检测...

2019-06-20 13:11:35 911

原创【AI实战】手把手教你实现文字识别模型（入门篇：验证码识别）

文字识别在现实生活中有着非常重要的应用，主要由文字检测、内容识别两个关键步骤组成，在本博客之前的文章中已介绍了文字检测、内容识别的经典模型原理（见文章：大话文本检测经典模型：CTPN，大话文本识别经典模型：CRNN），本文主要从实战的角度介绍如何实现文字识别模型。在之前的文章中，已经介绍过了跟文字识别相关的实战内容：基于MNIST数据集识别手写数字的实战内容（见文章：训练你的第一个AI...

2019-06-16 22:15:23 9375

原创大话文本识别经典模型：CRNN

在前一篇文章中（详见本博客文章：大话文本检测经典模型 CTPN），介绍了文字识别在现实生活中的广泛应用，以及文字识别的简单流程：其中“文本检测”、“文本识别”是其中两个关键环节，“文本检测”已经在前一篇文章中介绍了详细的介绍，本文主要介绍“文本识别”的经典模型CRNN及其原理。在介绍CRNN之前，先来梳理一下要实现“文本识别”的模型，需要具备哪些要素：（1）首先是要读取输...

2019-06-14 00:06:57 7889 1

原创大话文本检测经典模型：CTPN

文字识别是AI的一项重要应用，例如将包装盒上的文字识别出来、将产品说明书上的文字识别出来、将大街上广告牌的文字识别出来等等，在现实生活中能给我们带来很大的便利，有着非常广泛的应用。一个简单的文字识别流程如下：Step 1.通过手机、摄像机等设备采集含有待识别字符的图像，作为输入；Step 2.对图像进行尺寸缩放、明暗调整、去噪等预处理操作；Step 3.将图像中的单个...

2019-06-14 00:05:19 2138 1

原创【AI实战】快速掌握TensorFlow（四）：损失函数

在前面的文章中，我们已经学习了TensorFlow激励函数的操作使用方法（见文章：快速掌握TensorFlow（三）），今天我们将继续学习TensorFlow。本文主要是学习掌握TensorFlow的损失函数。一、什么是损失函数损失函数（loss function）是机器学习中非常重要的内容，它是度量模型输出值与目标值的差异，也就是作为评估模型效果的一种重要指标，损失函数越小，表明...

2019-06-01 15:43:44 3170

原创【AI实战】快速掌握TensorFlow（三）：激励函数

到现在我们已经了解了TensorFlow的特点和基本操作（见文章：快速掌握TensorFlow（一）），以及TensorFlow计算图、会话的操作（见文章：快速掌握TensorFlow（二）），接下来我们将继续学习掌握TensorFlow。本文主要是学习掌握TensorFlow的激励函数。1、什么是激励函数激励函数是所有神经网络算法的必备神器，通过加入激励函数可实现张量计算的非线性化...

2019-06-01 15:42:31 754

原创【AI实战】快速掌握TensorFlow（二）：计算图、会话原

在前面的文章中，我们已经完成了AI基础环境的搭建（见文章：Ubuntu + Anaconda + TensorFlow + GPU + PyCharm搭建AI基础环境），以及初步了解了TensorFlow的特点和基本操作（见文章：快速掌握TensorFlow（一）），接下来将继续学习掌握TensorFlow。本文主要是学习掌握TensorFlow的计算图、会话操作。计算图是Te...

2019-06-01 15:39:07 833

原创【AI实战】快速掌握Tensorflow（一）：基本操作

Tensorflow是Google开源的深度学习框架，来自于Google Brain研究项目，在Google第一代分布式机器学习框架DistBelief的基础上发展起来。Tensorflow于2015年11月在GitHub上开源，在2016年4月补充了分布式版本，最新版本为1.10，2018年下半年将发布Tensorflow 2.0预览版。Tensorflow目前仍处于快速开发迭代中，不断推出...

2019-05-30 00:14:54 805 1

原创【AI实战】动手训练自己的目标检测模型（YOLO篇）

在前面的文章中，已经介绍了基于SSD使用自己的数据训练目标检测模型（见文章：手把手教你训练自己的目标检测模型），本文将基于另一个目标检测模型YOLO，介绍如何使用自己的数据进行训练。YOLO（You only look once）是目前流行的目标检测模型之一，目前最新已经发展到V3版本了，在业界的应用也很广泛。YOLO的基本原理是：首先对输入图像划分成7x7的网格，对每个网格预测2个边...

2019-05-30 00:12:16 5013 1

原创【AI实战】手把手教你训练自己的目标检测模型（SSD篇）

目标检测是AI的一项重要应用，通过目标检测模型能在图像中把人、动物、汽车、飞机等目标物体检测出来，甚至还能将物体的轮廓描绘出来，就像下面这张图，是不是很酷炫呢，嘿嘿在动手训练自己的目标检测模型之前，建议先了解一下目标检测模型的原理（见文章：大话目标检测经典模型RCNN、Fast RCNN、Faster RCNN，以及Mark R-CNN），这样才会更加清楚模型的训练过程。本文将在我们前...

2019-05-27 21:12:08 10279 6

原创【AI实战】动手实现人脸识别程序

人脸识别在现实生活中有非常广泛的应用，例如iPhone X的识别人脸解锁屏幕、人脸识别考勤机、人脸识别开门禁、刷脸坐高铁，还有识别人脸虚拟化妆、美颜，甚至支付宝还推出了刷脸支付、建设银行还实现了刷脸取钱……，可见人脸识别的用处非常广。既然人脸识别这么有用，那我们能否自己来实现一个人脸识别模型呢？答案是肯定的。接下来将在之前我们搭建好的AI基础环境上（见文章：搭建AI基础环境），实现人...

2019-05-27 01:39:56 4260

原创【AI实战】训练第一个AI模型：MNIST手写数字识别模型

在上篇文章中，我们已经把AI的基础环境搭建好了（见文章：Ubuntu + conda + tensorflow + GPU + pycharm搭建AI基础环境），接下来将基于tensorflow训练第一个AI模型：MNIST手写数字识别模型。MNIST是一个经典的手写数字数据集，来自美国国家标准与技术研究所，由不同人手写的0至9的数字构成，由60000个训练样本集和10000个测试样本集构成...

2019-05-18 10:35:14 2872

原创【AI实战】深度学习基础环境搭建（Ubuntu + anaconda + tensorflow + GPU + PyCharm）

为方便日常的深度学习模型开发与测试，本人在自己笔记本上搭建一个深度学习的基础环境，便于学习AI使用。本人使用的笔记本配置是CPU为8代i5，显卡为GTX1060，内存为8G，基本上可满足日常的AI研究与学习。下面将介绍基础环境的搭建配置过程：1、安装Ubuntu 18.04（1）安装操作系统从Ubuntu官网上下载最新的Ubuntu 18.04 LTS版本的IOS文件...

2019-05-16 21:45:02 3513 1

原创 27种深度学习的主流神经网络

深度学习发展迅速，每天都会冒出不少新的神经网络架构，像卷积神经网络（CNN）、循环神经网络（RNN）、长短时记忆网络（LSTM）等等。对于从事AI的专业人士而言，要全面追踪、了解这些新的架构非常费力。ASIMOV Institute绘制当前所流行的27张神经网络节点图，方便查阅和收藏，如下：欢迎关注本人的微信公众号“大数据与人工智能Lab”（BigdataAILab），获取更多信息...

2019-05-16 20:37:23 9959 3

原创【干货整理】CNN（卷积神经网络）进化史

卷积神经网络（CNN）近年来取得了长足的发展，是深度学习中的一颗耀眼明珠。CNN不仅能用来对图像进行分类，还在图像分割（目标检测）任务中有着广泛的应用。CNN已经成为了图像分类的黄金标准，一直在不断的发展和改进。刘昕博士总结了CNN的演化历史，如下图所示：CNN的起点是神经认知机模型，此时已经出现了卷积结构，经典的LeNet诞生于1998年。然而之后CNN的锋芒开始被SVM等模型盖过...

2019-05-16 20:33:02 7735

原创大话目标检测经典模型：Mark R-CNN

在之前的文章中介绍了目标检测经典模型（R-CNN、Fast R-CNN、Faster R-CNN），目标检测一般是为了实现以下效果：在R-CNN、Fast R-CNN、Faster R-CNN中，实现了对目标的识别和定位，如下图所示：为了更加精确地识别目标，实现在像素级场景中识别不同目标，利用“图像分割”技术定位每个目标的精确像素，如下图所示（精确分割出人、汽车、红绿灯等）：Mask...

2018-04-28 21:09:24 1641

原创大话目标检测经典模型（RCNN、Fast RCNN、Faster RCNN）

目标检测是深度学习的一个重要应用，就是在图片中要将里面的物体识别出来，并标出物体的位置，一般需要经过两个步骤：1、分类，识别物体是什么 2、定位，找出物体在哪里除了对单个物体进行检测，还要能支持对多个物体进行检测，如下图所示：这个问题并不是那么容易解决，由于物体的尺寸变化范围很大、摆放角度多变、姿态不定，而且物体有很多种类别，可以在图片中出现多种物体、出现在任意位置。因此，目标检测是一个比较复...

2018-03-31 14:52:26 6751

原创机器学习的五大流派

有道是“罗马不是一天建成的”，机器学习的发展也是历经了很长时间，在这过程中形成了五大流派，这五大流派各有各的特点。1、符号主义（Symbolists）名称：符号主义（Symbolists）起源：逻辑学、哲学核心思想：认知即计算，通过对符号的演绎和逆演绎进行结果预测问题：知识结构代表算法：逆演绎算法（Inverse deduction）代表应用：知识图谱代表人物：Tom Mitchell、Stev...

2018-03-24 20:52:49 13813

原创大话CNN经典模型：GoogLeNet（从Inception v1到v4的演进）

—— 原文发布于本人的微信公众号“大数据与人工智能Lab”（BigdataAILab），欢迎关注。2014年，GoogLeNet和VGG是当年ImageNet挑战赛(ILSVRC14)的双雄，GoogLeNet获得了第一名、VGG获得了第二名，这两类模型结构的共同特点是层次更深了。VGG继承了LeNet以及AlexNet的一些框架结构（详见大话CNN经典模型：VGGNet），而GoogLeNe...

2018-03-17 14:28:51 2587

原创大话CNN经典模型：VGGNet

摘要: 本文主要介绍卷积神经网络（CNN）的经典模型VGGNet的特点和网络结构，包括VGG16、VGG19等—— 原文发布于本人的微信公众号“大数据与人工智能Lab”（BigdataAILab），欢迎关注。 2014年，牛津大学计算机视觉组（Visual Geometry Group）和Google DeepMind公司的研究员一起研发出了新的深度卷积神经网络：VGGNet，并取得了ILSVR...

2018-03-14 02:35:22 6314

原创大话CNN经典模型：AlexNet

—— 原文发布于本人的微信公众号“大数据与人工智能Lab”（BigdataAILab），欢迎关注。 2012年，Alex Krizhevsky、Ilya Sutskever在多伦多大学Geoff Hinton的实验室设计出了一个深层的卷积神经网络AlexNet，夺得了2012年ImageNet LSVRC的冠军，且准确率远超第二名（top5错误率为15.3%，第二名为26.2%），引起了很大的轰动...

2018-03-12 01:18:13 10329 1

原创大话CNN经典模型：LeNet

—— 原文发布于本人的微信公众号“大数据与人工智能Lab”（BigdataAILab），欢迎关注。近几年来，卷积神经网络（Convolutional Neural Networks，简称CNN）在图像识别中取得了非常成功的应用，成为深度学习的一大亮点。CNN发展至今，已经有很多变种，其中有几个经典模型在CNN发展历程中有着里程碑的意义，它们分别是：LeNet、Alexnet、Googlenet、...

2018-03-11 01:36:43 3467

原创大话深度信念网络（DBN）

—— 原文发布于本人的微信公众号“大数据与人工智能Lab”（BigdataAILab），欢迎关注。让我们把时间拨回到2006年以前，神经网络自20世纪50年代发展起来后，因其良好的非线性能力、泛化能力而备受关注。然而，传统的神经网络仍存在一些局限，在上个世纪90年代陷入衰落，主要有以下几个原因：1、传统的神经网络一般都是单隐层，最多两个隐层，因为一旦神经元个数太多、隐层太多，模型的参数数量迅速增...

2018-03-01 01:57:07 8251

原创深度学习中常用的激励函数

—— 原文发布于本人的微信公众号“大数据与人工智能Lab”（BigdataAILab），欢迎关注。我们知道深度学习的理论基础是神经网络，在单层神经网络中（感知机），输入和输出计算关系如下图所示：可见，输入与输出是一个线性关系，对于增加了多个神经元之后，计算公式也是类似，如下图：这样的模型就只能处理一些简单的线性数据，而对于非线性数据则很难有效地处理（也可通过组合多个不同线性表示，但这样更加复...

2018-02-26 18:39:15 15602

原创大话深度残差网络（DRN）ResNet网络原理

—— 原文发布于本人的微信公众号“大数据与人工智能Lab”（BigdataAILab），欢迎关注。一说起“深度学习”，自然就联想到它非常显著的特点“深、深、深”（重要的事说三遍），通过很深层次的网络实现准确率非常高的图像识别、语音识别等能力。因此，我们自然很容易就想到：深的网络一般会比浅的网络效果好，如果要进一步地提升模型的准确率，最直接的方法就是把网络设计得越深越好，这样模型的准确率也就会越来越...

2018-02-23 15:29:39 14257 5

原创大话循环神经网络（RNN）

—— 原文发布于本人的微信公众号“大数据与人工智能Lab”（BigdataAILab），欢迎关注。卷积神经网络CNN在图像识别中有着强大、广泛的应用，但有一些场景用CNN却无法得到有效地解决，例如：语音识别，要按顺序处理每一帧的声音信息，有些结果需要根据上下文进行识别；自然语言处理，要依次读取各个单词，识别某段文字的语义这些场景都有一个特点，就是都与时间序列有关，且输入的序列数据长度是不固定的。...

2018-02-23 15:27:25 4263

原创大话卷积神经网络（CNN）

这几年深度学习快速发展，在图像识别、语音识别、物体识别等各种场景上取得了巨大的成功，例如AlphaGo击败世界围棋冠军，iPhone X内置了人脸识别解锁功能等等，很多AI产品在世界上引起了很大的轰动。在这场深度学习革命中，卷积神经网络（Convolutional Neural Networks，简称CNN）是推动这一切爆发的主力，在目前人工智能的发展中有着非常重要的地位。【问...

2018-02-23 15:22:18 11723

雪饼的博客