释放数据生产力，数据治理要“即时”

最新推荐文章于 2024-08-03 09:08:49 发布

大数据在线

最新推荐文章于 2024-08-03 09:08:49 发布

阅读量456

点赞数

分类专栏：云静思园文章标签：数据治理统一标签体系爱数 AnyShare

本文链接：https://blog.csdn.net/dobigdata/article/details/128014469

版权

云静思园专栏收录该内容

356 篇文章 5 订阅

订阅专栏

近年来，数据成为核心生产要素之后，人们总是期待充分释放数据生产力。但知易行难，如何释放数据生产力，大部分企业却莫衷一是、无所适从。

尤其是针对文档等非结构化数据，工程设计、生物医药、智能制造、金融、教育等行业极为典型。这些行业大多数属于知识密集型企业，自身积累了丰富且具有极高价值的海量文档数据，却在数据治理、内容分析、知识运营等方面捉襟见肘，缺乏有效方法论与工具，只能眼睁睁看着丰富的数据“沉睡在角落”。

面对文档等非结构化数据的种种挑战，以爱数AnyShare Family7为代表的智能内容管理平台近年迅速兴起，获得了多个行业用户的青睐。尤其是在多级统一标签体系的加持下，爱数AnyShare Family7率先开启文档治理体系专业服务2.0，为非结构化数据的治理带来“即时”能力，真正帮助多个行业用户发挥数据要素价值、充分释放数据生产力。

非结构化数据的“墙”现象

培根说，知识就是力量。

以非结构化数据为例，在很多企业中，非结构化数据蕴含着企业重要的知识、经验，如果能充分的分享与利用，则对于企业良性发展有着极大促进作用。Forrester一份调研显示，绝大部分企业都意识到非结构化数据已是企业重要的核心数字资产，提升对非结构化数据的应用，可以有效提升企业的核心竞争力。

但从数据到知识绝非易事，其中治理至关重要。如今，几乎所有企业都面临着非结构化数据的治理挑战。爱数文档治理专家表示，很多企业经过多年发展之后，在非结构化数据治理主要面临着两大挑战：复杂组织与技术架构的挑战、多样化业务与可持续发展的挑战。

例如，企业组织规模持续变大之后，往往会面临着跨国、跨区运营，分支机构林立，随之而来的就是数据壁垒越多，“部门墙”现象严重，多云战略、异构系统造成的数据孤岛、数据口径不统一等情况，使得数据共享、利用面临着层层困难。

又如，业务多样化之后，如何实现文档快速、安全、精准和跨业务的流转，如何简化安全治理以及提升知识的传承均极具难度。

“非结构化数据的‘即时’数据治理如今愈发重要，滞后的数据治理会带来一系列问题。”爱数文档治理专家如是说。如何理解“即时”与“滞后”，爱数文档治理专家通过日常房间整理为例子，房间不即时收纳与归置，很容易就陷入乱糟糟的状况，人们往往陷入“物品不用的时候随处见、用的时候找不到”的尴尬情况。

“如今，业务的发展也对于非结构化数据治理的时效性要求越来越高。因此，建立非结构化数据的治理体系势在必行。”爱数文档治理专家补充道。

“即时”对于数据治理为何至关重要

非结构化数据治理本身就是一项系统化工程，涉及到组织制度、企业文化、业务流程和技术工具等多个方面。Forrester调研数据显示，超过60%的企业在数据治理上都面临着内部认知、组织协同、人才工具和数据思维等方面的挑战。

如今非结构化数据治理需要加上“即时”，对于很多企业是难上加难。对此，爱数在文档治理体系专业服务1.0的诸多实践以及对多个行业用户需求的深度调研基础上，正式推出了文档治理体系专业服务2.0，基于多级统一标签体系，满足用户从咨询、建设和运营等全方位文档治理需要。

具体来看，爱数文档治理体系专业服务2.0包括专家咨询服务、专家交付服务和专家培训服务，均是由拥有多年行业领域经验的专业服务顾问来提供文档治理体系全生命周期的服务。“爱数的专业顾问具备咨询、项目管理和组织运营培训的专业能力，以及丰富的数字化建设经验。”爱数文档治理专家介绍道。

如果说文档治理体系专业服务2.0解决了各大企业缺乏数据治理专家方面的难题；那么，爱数AnyShare Family7 智能内容管理平台则是数据治理离不开的“百宝箱”。

正所谓“工欲善其事必先利其器”，对于文档治理而言，爱数AnyShare Family7 智能内容管理平台不仅打破数据孤岛、实现非结构化数据的统一管理，更是让内容治理、安全治理和知识治理不再割裂，从而为“即时”数据治理奠定基础，帮助用户真正形成文档治理体系。

“通过‘即时’数据治理，能够有效避免大量、滞后的数据治理，推动知识及时共享与发挥价值。”爱数文档治理专家介绍道，“有效的数据治理是让数据结构化，而统一标签体系是数据结构化的基础。”

众所周知，数据标签是对数据特征的符号表示，每一个数据标签都是认识、观察和描述数据的一个角度。通过统一标签体系，用户可以针对文档、知识、表格等不同内容进行分类、标记，以即时数据治理实现高效的内容治理、严格的安全治理和精准的知识治理。

例如，文档只有流动、共享，其价值才能最大化。但文档的流转往往涉及到复杂的安全与合规规则，利用人工审核的方式，不仅效率低下，而且成本高昂。统一标签体系可以利用安全策略和敏感度标签在文档流转过程中自动识别安全规则，大幅提升文档流转效率。

又如在很多企业的财务、供应商管理和HR等系统中，不同业务系统往往存在姓名、身份证、地址等基础数据格式不统一的情况，从而容易造成基础数据重复、不准确、不唯一等情况，这些核心业务数据一旦有误，就容易对业务造成隐患。而通过统一标签体系，利用标签和编目能力，可以实现跨业务系统的主数据进行赋能，生成统一、唯一的数据，更好地为业务赋能。

但“打标签”在大数据时代通常被视为是一项极为场景的工作，爱数的统一标签体系体系有何不同？其背后有哪些核心技术，又是如何帮助用户做到“即时”数据治理的。

统一标签背后的核心技术是什么

数据标签通常是以微观视角，对每一条数据进行加工和细化管理，并且会带上业务含义的概括性描述，从而方便数据价值的充分挖掘与实现。

“与个人不同，企业对于数据标签需求是在约束中寻求足够的自由。”爱数研发副总裁杨宇介绍道；“由于法律法规等因素，企业希望所有流动环节均被管控，不能留一个漏洞；同时又希望内容最大化流动，提升员工的生产力。”

从技术上挑战上看，因为文档与标签是一对N的关系，一旦文档等非结构化数据爆炸性增长，形成海量规模，那意味着标签数量规模会更加庞大。因此，如何面对海量文档数据实现自动化、和准确高效地打标签，海量标签如何快速、高效存取，以及安全的访问控制和精准的搜索都是标签体系面临的主要挑战。

“统一标签体系的技术理念是在衔接多种技术的基础上，采用灵活、开放和一体化的设计理念。”杨宇表示道。

具体来看，从标签生成、标签存取到标签应用过程中融合多项人工智能、大数据、数据存储等多项技术。例如，在标签生产阶段，采用AI技术实现自动打标签，减少人工操作；在标签存取阶段，采用内容自动化技术，可以在内容生产时候更多维度的标签，并且高效存取下来；而在标签应用阶段，通过搜索、安全管控和第三方集成，实现一体化的使用体验。

以内容治理为例，从文档上传和内容撰写开始，爱数AnyShare Family7的内容识别模块就会对内容进行识别，并利用DLP安全服务打上不可修改的安全标签，后续在某些场景使用时候会促发安全规则；而AI模块则可以通过识别文档内容，进一步丰富标签内容。

“像财务工作中，很多财务希望发票基于企业、金额等分门别类放在不同子目录中，这可以通过机器人基于内容理解和标签去分类。”杨宇补充道。

事实上，除了各种内容治理场景外，在安全治理和知识治理等各种场景中，统一标签体系也是基于灵活、开放和一体化的设计理念，融合了多种技术来实现有效的治理。

“统一标签的背后是一系列技术体系的高效集成，真正帮助企业从海量非结构化数据中挖掘价值，在日常工作中为员工提供帮助，持续释放数据生产力。”杨宇最后表示道。