摘要:如何对海量的非结构化数据进行管理并从中挖掘更大的价值,决定了全球经济下半场的走向。结合全球数据生产与存储现状以及数据管理理论和技术的发展情况,对非结构化数据管理的成因、管理方法和非结构化数据管理发展进行了讨论,并对未来智能化数字管理的建设作出展望。
关键词:非结构化数据;人工智能;大数据;数据管理
0 引言
随着人工智能技术、大数据技术以及5G等技术的不断发展,社会中每时每刻都在产生着海量的数据,产生的数据中不仅包含了结构化数据,同时也有大量的音视频、文本等非结构化数据。根据IDC在2021年的预测[1],在2020年以前人类产生的数据量每两年翻一倍,到2025年前后全球数据量将达到惊人的179.6 ZB,而其中大部分为非结构化数据,占据了全部数据量的80%~90%,并且非结构化数据增长的速度要比结构化数据增长的速度高出10~50倍之多。
如此海量的非结构化数据之中蕴含的价值不言而喻,如果将数据比作未来的新石油,那么在非结构化数据这口“油井”中所潜在的资源量则是惊人的。但是,由于非结构化数据中的信息含量和信息价值很难被界定,如何对其进行有效的管理,是一个棘手的问题。
1 为何要对非结构化数据进行管理
1.1 非结构化数据体量巨大
根据IDC公司在2021年的分析及预测[1],2025年,全球将产生179.6 ZB的数据,而这一数字在2021年约为83 ZB,全球数据量正在以约23%的速度增加。值得注意的是,在179.6 ZB的数据中ÿ