作者:禅与计算机程序设计艺术
1.简介
图像识别一直是计算机视觉领域的一个重要方向,它的目的是通过对图片或视频中的物体、空间特征进行识别、理解、分类等方式,从而对场景信息进行分析、理解并作出相应的决策或输出。那么如何在实际业务中用TensorFlow实现图像识别任务呢?本案例将以一个简单的手写数字识别任务为例,演示如何用TensorFlow构建卷积神经网络模型用于图像分类。
2.背景介绍
图像识别一般分为两种类型,一种是静态图像识别(如身份证扫描件);另一种是动态图像识别(如实时摄像头拍摄的视频)。
静态图像识别的应用场景主要包括:
- 用户身份验证(OCR)
- 文字识别(文字识别技术是图像识别技术的基础,也是很多人工智能相关领域的研究热点之一)
- 商品搜索引擎
- 保险标的识别
动态图像识别的应用场景主要包括:
- 自动驾驶
- 目标跟踪
- 交通违章检测
- 智慧停车
- 汽车外观分析
在本案例中,我们只关注静态图像识别,即手写数字识别,其背景、分类等有限且简单,因此我们可以把手写数字识别作为一个二分类问题,即输入一张手写数字的图片,输出它属于哪个类别(0~9)。
3.基本概念术语说明
3.1 TensorFlow
TensorFlow 是谷歌开源的机器学习框架,是 Google Brain Team 团队