随着互联网技术的日新月异,内容数据逐渐在各行业的业务中占据更重要的地位。日常的业务过程中,需要处理的大量电子文档、图片、音频、视频等,都属于内容数据范畴。
例如,某银行的无人营业网点的远程业务办理中,要求用户上传身份证、签字页等扫描件,来核实用户身份。为其做后端支撑的影像管理平台,就属于典型的内容管理系统。基于该类平台,企业替代了业务处理中的纸质化传输,实现了海量非结构化内容数据的采集、加工、传递及服务的全生命周期的数据整合,大幅提升了生产效率。
内容管理系统,除了管理非结构化的内容数据(如图片、语音、视频等),还需要实现内容文件的元数据(如文件标签)的管理,才能为业务系统提供服务,如批次上传/下载、标签化、全文检索、生命周期管理、文件加工转存、断点续传等。
对内容数据进行收集、存储、管理和利用的整个过程,已经成为企业提高业务效率和提高盈利能力的有效方法。
01 非结构化数据概述
“非结构化数据”是什么?相较于记录了生产、业务、交易和客户信息等的结构化数据,非结构化的信息涵盖了更为广泛的内容。非结构化数据指的是:数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。包括所有格式的办公文档、文本、图片、XML、 HTML、各类报表、图像和音频/视频信息等。
相对于结构化数据,非结构化数据具有以下特点:数据存储占比高、数据格式多样、结构不标准且复杂、信息量丰富、处理门槛高。
当前行业公认:非结构化数据占数据总量的80%以上。结构化数据仅占到全部数据量的20%,其余80%都是以文件形式存在的非结构化和半结构化数据,非结构化数据包含各种办公文档、图片、视频、音频、设计文档、日志文件、机器数据等。
非结构化数据的占比图
非结构化数据没有预定义的数据模型,不方便用数据库二维逻辑表来表现。
下面对比一下结构化数据和非结构化数据的区别:结构化数据,是指由二维表结构来逻辑表达和实现的数据,严格地遵循数据格式与长度规范,主要通过关系型数据库进行存储和管理。结构化数据格式形式如图下:
非结构化数据,是数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。包括所有格式的办公文档、文本、图片、HTML、各类报表、图像和音频/视频信息等。
02 非结构化数据管理存在的问题
1、数据种类繁杂,形式多样
由于企业日常经营管理和业务管理的需要,建立了功能各异的应用系统或信息化管理平台,而这些管理系统和平台中生成了形式多样的非结构化文档数据,用以支撑企业的各类管理工作。
除此之外,还有大量与管理相关的非结构化文档数据散存在员工个人工作电脑中。这些数据种类繁杂,有的来源于外部,有的是经过内部整理编研形成的,有的则是完全产生于内部;涵盖了不同格式、不同存储载体、不同管理阶段的非结构化文档数据。
一般来说,企业拥有形式多样的存储设备,包括个人工作电脑以及信息化管理平台中管理的设备,且归属于不同的专业领域,业务活动中产生的非结构化文档数据除了常见的与办公活动相关的非结构化文档数据外,还包括了如照片、视频、设计图纸等多种形式。目前,这些不同种类的非结构化文档数据基本处于分散状态,很难进行有效的关联和整合。
2、信息孤岛造成数据割裂现象严重
由于信息系统建设具有阶段性特征,已有的信息系统建设之初仅以单个的业务需求为目标,彼此孤立,存在着比较严重的孤岛现象,系统之间缺少横向的数据接口,且数据标准不统一。即便是归档后进入档案系统之中的文档数据也难以实现有效的管理与集成。
例如,企业业务活动中存在着很多简称、全称以及英文名称并行使用的情况,很多数据标签对应同一个事物、同一个意思却使用不同的标签值。随着企业对数据资产价值需求的日益提升,这种现象的弊端亦凸显,打通企业非结构化文档数据的“任督二脉”,实现其资产价值势在必行。
3、存在过多的“账外”非结构化文档数据,缺少统一管控
由于企业的归档制度不够完善,集团制订的归档范围未将一些应归档但无法通过系统流转的文档纳入其中,部门相当一部分非结构化文档数据仍保存在个人电脑之中,没有统一的管理和控制,难以进行检索和共享利用,导致企业文档数据资产存在着流失的风险。
4、非结构化文档数据管理功能不全
如不支持有版本的非结构化文档数据管理,使用口径不统一,相同文件分散在不同的业务系统中,无版本控制导致无法确定系统中版本是否为最新。再如,业务系统缺少归档功能和接口,导致部门无法及时提交应归档保存的非结构化文档数据,导致非结构化文档数据资产容易丢失。同时,许多非结构化文档数据往往以“附件”的形式存在于系统中,难以检索与利用。企业一些信息系统(如OA系统、ERP系统等)中文档多以表单(如办文单)的形式进行流转,需要办理的文档通常作为表单的附件,其中既有word或pdf等格式的文本文档,也有多种格式的图片、音视频文件等。这些非结构化文档往往只能借助其所依附的表单信息或者简单的文件标题等元数据加以检索和利用,检全率低,开发利用不足,难以开展深度的数据挖掘与分析。
5、相关制度体系不健全、管理缺位
企业现有的文档管理制度并不是建立在彻底的数据清理基础之上,因此,对于企业中生成哪些非结构化文档,哪些需要归档,如何进行归档?如何进行管理和利用等问题,现有制度中均缺少系统、细致、可操作的规定和描述。
而且,非结构化文档数据缺少必要的分类及元数据项。尤其是文档生命周期流程,即从文档生成、流转、办结到归档、保存、利用的全过程,并没有非常清晰和规范的管理流程和要求。
同时,企业业务活动往往涉及多个参与方,既有企业内部的部门,也有外单位,协同管理与归口管理的矛盾突出。这就对企业的非结构化文档数据管理提出了更高的要求,尤其是非结构化文档数据的准确性、及时性、一致性、安全性等方面。
此外,企业非结构化文档数据类型包括内部发文、外部发文、收文、签报、合同、业务文件附件及归档之后的档案。除了归档之后的档案数据是由数字档案管理系统进行集中统一管理之外,归档之前的非结构化文档数据往往处于分散管理的状态,存在着失存、失真、失控和失用等诸多问题,直接影响了后端档案数据的质量,影响了文档数据资产价值的发挥。
针对上述问题,要想真正实现企业文档数据资产的科学管理,非结构化文档数据管理势在必行。
03 非结构化数据治理解决方案
随着数字中国和智慧城市建设的加速,政府信息化管理中也会产生大量文档数据,这些数据一方面需要服务民生应用,另一方面需要实施分级分类的权限控制和隐私保护。由于涉及到多部门、多应用和跨平台,目前市场上急需此类数据管理平台。
文盾信息研发的文盾非结构化数据安全协作平台源于国防科技大学服务军队应用的信息安全核心技术,具有国际领先水平的科研成果和完全自主知识产权,可有效解决智慧城市建设和企事业单位中文档数据跨部门、跨应用安全协作的核心需求,支持在不替换原有系统的前提下确保组织敏感数据安全,对数据进行分级保护、协同办公、权限控制,轻松保障数据资产安全可在保护隐私和防扩散的基础上促进各类文档数据的共享利用,实现数据流动中的安全管理,更好落实《数据安全法》的各项规定。该平台获得2020年工信部网络安全示范项目、2020年湖南省军民融合先进技术转化大赛一等奖、2021年长沙市智慧城市优秀解决方案等荣誉。
平台核心优势:
1. 国产化、私有化
基于私有云存储的文档集中管理平台,基于国产自主软硬件、文档私有格式建立起标准的文档可信存储平台,实现对文档数据的统一组织,分布存储,建立标准化、可扩展、易利用的数据接口标准。
2. 多部门、多应用、跨部门协作
实现系列化的文档数据安全协作工具,围绕文档数据的灵活采集、内部流转审批、水印标注、协同编辑、版本控制、自动格式转化、分类去重、权限控制、内容防泄露、安全监测等需求,实现一系列文档安全协作工具。
3. 数据多源融合、智能分析
提供文档数据的智慧应用支撑,面向典型应用需求,研究文档数据的内容级挖掘和分析技术,支撑基于文档数据的多源融合、高效统计、分析决策、关联推荐等。
文盾非结构化数据安全协作平台重点突破基于海量文档的统一存储、基于AI的中文及图像处理、基于知识图谱的关联分析、基于主动防御的自主保护、基于数据智能体的群体协作等5项关键技术,部分技术居国际领先水平。该平台各子系统可根据业务需求自由组合或单独使用,可开发面向机关办公、实验科研、智能对抗等不同版本的产品。
04 总结
数据就像石油,需要经过提纯加工才能使用,才能实现其资产价值。非结构化文档数据是“数据石油”的重要来源,企业需要遵循分级分类的管理思想,通过平台化、智能化和安全化的管理方法,才能构建出完整的非结构化文档数据管理体系,围绕能给业务带来价值的非结构化文档数据资产进行建设,从而推动非结构化文档数据向数据资产的转化。