1 专业术语
OCR,Optical Character Recognition,光学字符识别
2 非结构化数据
与结构化数据相对的是不适于由数据库二维表来表现的非结构化数据,包括各种格式的办公文档、XML、HTML、各类报表、图片和音频、视频信息等。
对于非结构化数据的分析,主要是全文检索,图像分析,OCR 等多媒体信息处理等。
非结构化数据的模型主要是存储空间(Bucket)和对象文件(Object)。
非结构化数据的处理接口主要是业界事实标准 Amazon S3,属于一种 REST 接口。
3 互联网存储解决方案Amazon S3
3.1 Amazon S3简介
Amazon S3即Amazon Simple Storage Service 是互联网存储解决方案。该服务旨在降低开发人员进行网络规模级计算的难度。
Amazon S3提供了一个简单Web服务接口,可用于随时在Web上的任何位置存储和检索任何数量的数据。此服务让所有开发人员都能访问同一个具备高扩展性、可靠性、安全性和快速价廉的数据存储基础设施。
Amazon S3的核心概念(如存储桶和对象)。
如何使用Amazon S3应用程序编程接口(API)来使用这些资源。