数据与数据处理

1.数据

数据根据结构可以分为结构化数据、半结构化数据、非结构化数据。

  • 结构化数据是行数据,通常存储在关系型数据库中,包括数字、字符;
  • 半结构化数据一般是自描述的,数据的结构和内容混在一起,没有明显的区分,包括HTML文档,JSON,XML等;
  • 非结构化数据没有固定的结构但在日常生活中非常多,如下:

非结构化数据

人为生成的非结构化数据:

文本文件:文字处理、电子表格、演示文稿、电子邮件、日志。

社交媒体:来自新浪微博、微信、QQ、Facebook,Twitter,LinkedIn等平台的数据。

网站: YouTube,Instagram,照片共享网站。

移动数据:短信、位置等。

通讯:聊天、即时消息、电话录音、协作软件等。

媒体:MP3、数码照片、音频文件、视频文件。

业务应用程序:MS Office文档、生产力应用程序。

典型的机器生成的非结构化数据包括:

卫星图像:天气数据、地形、军事活动。

科学数据:石油和天然气勘探、空间勘探、地震图像、大气数据。

数字监控:监控照片和视频。

传感器数据:交通、天气、海洋传感器。

 据IDC研究表明,到2025年,全球数据量将会从2016年的16 ZB上升至163ZB。著名研究机构Garter也表示,全球信息量正在以59% 以上的年增长率快速增长。

而在这些数据中,结构化数据仅占到全部数据量的20%,其余80%都是以文件形式存在的非结构化和半结构化数据,日志文件、机器数据等又占据非结构化数据的90%。

2.数据结构

结构化数据可以使用二维表来表达现实数据,因此可以使用关系型数据库进行存储。

半结构化数据可以用进行存储

非结构化数据没有特定的结构来存储数据

3.数据处理

对于非结构化文档,可以使用智能文档处理技术,综合应用计算机视觉(CV)、光学字符处理(OCR)、文档解析、自然语言处理(NLP)和文档信息抽取等关键技术。

  • 计算机视觉(CV)技术CV技术主要是对于文档图像进行各种图像处理,常见如图像去噪声、去干扰、图像增强、图像压缩、图像分割等。其处理目的主要是为后续OCR环节提供高质量的图像输入,以提升OCR的性能。同时,利用图像检测和分割等技术,可以实现文档物理版面解析。
  • 光学字符处理(OCR)技术OCR是将纸质文档、图片等非数字化文件中的文字内容转换为数字化格式的技术。当前主流实现上,借助表格识别、印章识别、勾选和二维码识别等技术,在OCR环节可以实现图像中所有通用对象(文字、表格、印章、勾选、二维码、签名等)的统一识别和输出,作为后续智能化文档处理环节的输入。
  • 文档解析技术文档解析是在文档协议解析或OCR处理的结果上,通过版面分析、表格解析等技术,实现文档物理和逻辑结构的解析,得到文档内容的统一表示。以此作为进一步文档分类、信息抽取和文档比对等处理的输入。IDP通常需要能够支持所有格式的文档输入,包括图片、PDF、Word、OFD等,因此,文档解析环节需要能够解析以上各种格式的输入文件,将其转换成统一的表示形式,如JSON文件。
  • 自然语言处理(NLP)NLP是一种利用计算机技术对自然语言进行分析和处理的技术,常见的NLP任务包括分词、词性标注、句法分析、语义分析、文本分类、信息抽取、文档摘要、情感分析等。IDP中主要使用的NLP技术包括文本分类、文本信息抽取、语义理解等。通常的做法是将OCR输出或文档协议解析后的所有文本块进行拼接,得到文本序列,再通过文本分类、信息抽取等技术,实现文档的分类和信息抽取。另外,通过NLP技术,也可以对文档进行自动摘要、情感分析和智能问答等处理。
  • 文档信息抽取相比于纯文本,文档的最大特点是其富格式特点。因此,文档中信息抽取必须依赖于版面位置等视觉特征,比如从文档中的图表或表格中抽取信息,或者从特定版面位置区域的结构化信息块中抽取信息。相比于简单地从大段文本序列中做信息抽取,文档信息抽取技术难度更大。

文档处理流程如下:

 

 

  • 文档预处理该步骤主要针对Word、PDF等文档协议进行解析处理。
  • OCR通过通用OCR识别模型,对输入的文档图像上的文字、印章、签名、表格等通用要素进行识别,得到文本和位置,以及表格结构化数据。
  • 版面分析利用版面分析技术,定位出文档图像上所有的标题、段落、表格、图表、页眉、页脚等版面信息。再利用标题和段落等信息,做文档逻辑结构分析,得到文档结构。
  • 信息抽取基于版面和目录分析的结果,结合文档协议解析或OCR的结果,利用自然语言处理等技术,进行文档关键信息抽取。
  • 信息校验利用预设的规则,对抽取出的信息进行校验,包括数据格式检查、预设的审阅规则检查等。

  • 21
    点赞
  • 27
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值