政策法规: 标准化建设相关政策,包括《国家标准化发展纲要》,《重庆市的标准化条例》
标准数字化转型路线:标准数字化转型的白皮书、发展跟踪报告之类
相关文献:标准数字化转型发展现状与工作路线(大多是电力方面)、数字化平台构建、标准数字化转型涉及到的方法技术(机器可读、可执行、可解释)、知识图谱技术、本体理论
目标:
1. 整理标准数字化的发展历程和现有知识,为大家做一个科普ppt,讲一下。
2. 梳理+思考 标准数字化 在汽车行业的 业务和需求场景分析(目前做的较为领先的是 医疗、电力、航天领域可以参考),可能涉及到语义库相当于字典的输入,定义许多汽车相关概念。(关注公众号 这个更新最快)
3. 标准数字化 应用到标法智库那些方面?涉及到的技术?需要攻克的?
一 、标准数字化转型路线
参考文献:
数字时代,探索医疗健康标准数字化转型
标准数字化发展与实践技术跟踪报告
1. 标准化发展目标
到2025 年,实现标准供给由政府主导向政府与市场并重转变,标准运用由产业与贸易为主向经济社会全域转变,标准化工作由国内驱动向国内国际相互促进转变,标准化发展由数量规模型向质量效益型转变。标准化更加有效推动国家综合竞争力提升,促进经济社会高质量发展,在构建新发展格局中发挥更大作用。
到2035 年,结构优化、先进合理、国际兼容的标准体系更加健全,具有中国特色的标准化管理体制更加完善,市场驱动、政府引导、企业为主、社会参与、开放融合的标准化工作格局全面形成。
2.如何进行标准数字化?
( 一 ) 标准数字化能力分级
5 个等级:“纸质”(level0)、“开放数字化格式”(level1)、“机器可读文档”(level2)、
“机器可读和可执行内容”(level3)、“机器可解释内容”(level4)、机器可控内容”(level5)
其中 1~2 级主要侧重标准形式的结构化和基本的语义检索
3~4级主要侧重于标准的语义解析和互相关联的数据流。
从 1 级到 5 级,机器可处理的标准内容数据颗粒度逐渐变细,智能化程度不断加深。
ISO SMART 标准发展阶段模型 国际标准化组织(ISO)
IEC 标准数字化成熟度和实用性分级模型 国际电工委员会(IEC)
DIN 扩展的标准实用性分级模型 德国工业标准(DIN ) 德国电工委员会(DKE)
目前标准数字化水平
目前,各国标准化组织可达到的标准数字化水平大致如下:
国际标准及部分先进国家标准已达到 2 级水平,优先试点领域可达到 3~4 级,如 ISO 标准通过借助 XML 实现标准内容的结构化达到“机器可读”
CEN(欧洲标准委员会)、CENELEC(欧洲电工标准化委员会)、DIN (德国工业标准)基于自身的产业实践探索研制与标准文本配套的标准化软件,用于承载标准所定义的规则与特性并能直接被机器所执行,实现“机器可执行”。 3~4 级
而我国标准总体数字化水平还处于纸质标准结构化、电子化初级阶段,主要为 1 级标准,在一些
优先试点领域开展 3~4 级标准的探索 。
因此,我国标准数字化工作应从实现“level2-机器可读文档标准”开始。
( 二 ) 哪些标准适合机器可读?
并不是所有的标准都适合转为机器可读标准,比如管理类标准和工作类标准,该类标准的内容多以文本为主,将其表达为机器可读方式存在巨大困难
- 一是数字标准的应用是否有明确需求场景,
- 二是基于标准内容数字化转型的难易度判断上,语义越明晰的内容越容易被机器读取。
标准中主要使用了以下对象来表示信息:文本、公式、表格和图形。整体上,图表的语义清晰度要高于文本,而文本中具有比较明确指令和结构化的文本又比一般的描述性文本和解释性文本具有更高的语义清晰度。
( 三 ) 机器可读标准实现方法
机器可读标准包括了:机器可读文档、机器可读内容、机器可理解和机器可控多个标准数字化层次
- level2 机器可读文档已有比较共识的做法,主要采用 XML 等结构化语言对标准进行编写,已被众多标准化组织采用。
- level3 到level4 的数字化标准实现技术仍在研究中,并未形成通用的技术和方法,相关实践主要集中在工业自动化领域,大部分该层级标准应用主要是对标准某些内容提供特定的数字化服务,服务内容和范围相对较小,服务方式也相对单一。
- Level5 数字标准则属于远期展望目标,理论研究仍在探索当中。
1 . 机器可读文档(level2)
● 实现方法:利用 HTML、XML、JSON 等文档结构化描述语言对现有标准内容进行重构或编写
● 关键技术内容:确定标准标签集。要构建 XML形式的标准需要制定一个用于标记标准类型信息的文档类型定义
提供一种标准的通用 XML 格式的标准,是实现国际和区域标准化机构、国家标准化机构、标准制定组织、标准开发人员、出版商发布和交换标准全文内容和元数据的重要基础。
NISO STS
●主要技术方案:基于 ISO 标准标签集(NISO STS)的通用 XML 格式标准
美国国家信息标准化组织(NISO)标准标签套件(Standard Tag Set,STS)该标准是标准文档 XML 编码的标准,其目标是实现标准文档的可处理版本的交换。
目前,ISO、IEC、CEN-CENELEC 和各个成员都在使用NISO STS。
NISO STS 包括了交换标签集和扩展标签集
两个标签集的不同之处在于,交换标签集中唯一的表模型是基于 XHTML 的模型,而扩展标签集建立在交换标签集上,还提供了OASIS/CALS 表模型。
NISO STS 标 签 库 中 包 含 两 个 根 元 素<standard> 和 <adoption>,其中任何一个都可以用作包含标准文档的文档元素。
也可以是非常复杂或冗长的规范。一个标准的 <standard> 可分为几个结构组成部分:标准文件的前言(<front>),标准的正文(<body>)和附件(<back>)。
- <standard>:可用于标准和其他类似标准的文档。<standard> 可以在标准和文档生命周期的任何阶段,可以由一个或多个组织发布,可以是一个简单的简短文档,也可以是非常复杂或冗长的规范。一个标准的 <standard> 可分为几个结构组成部分:标准文件的前言(<front>),标准的正文(<body>)和附件(<back>)。
- <adoption>:在完成的标准被没有创建或发布该标准的组织采用的情况下,<adoption> 结构包含关于采用和原始标准的信息。采用可以包括关于采用该标准的组织的信息,并包括由采用组织提供的前言信息和附件信息。<adoption> 元素还可用于嵌套和一个或多个的 <standard>。
● 基于标准可读文档的应用
◎ XML 格式标准(ISO standard)
◎ 在线标准结构化阅读平台(ISO/IEC-OBP)
◎ 在线标准开发平台(ISO/IEC-OSD)
2 . 机器可读 / 可执行内容(level3)
● 实现方法:需要在现有标准结构化基础上对标准中的范围、术语和定义,以及具体技术要求赋予明确的语义
● 关键技术内容:工业 4.0 中的管理壳组件
管理壳(Asset Administration Shell: AAS)是资产的数字化表示。AAS 由许多子
模型组成,可以描述特定资产的所有信息和功能,包括其特征、特性、属性、状态、参
数、测量数据和能力。资产管理壳的目的是沿着生产系统的生命周期交换资产相关的数
据。管理壳的成败关键在于标准化和生态系统的构成。
● 标准机器可读 / 可执行内容的应用
◎ 可互操作标准的数据平台 SWISS
◎ IEC 公共数据字典(CDD)——CDD - V2.0015.0004 数据库标准形式的IEC 61360
◎ eCl@ss 标准
3 . 机器可解释内容(level 4)
level4标准的内容可以和整个文档分开进行验证和管理。
在 level4 阶段的标准,规则与规范将能够从数据中生成。
现有技术研究集中于使用自然语言处理技术从文档中提取需求定义信息,如通过构建标准知识本体、知识图谱等方式提取并表示标准细颗粒度标准内容。
根据现有知识图谱应用水平,从知识图谱角度构建机器可读标准,还需突破包括具有逻辑关系的数据表达和推理、图的表达、不依赖于特定图数据库的图谱存储技术、统一的接口服务格式等技术问题
二、标准知识图谱
1.基础概念
1.标准知识图谱定义
标准知识图谱是领域知识图谱在标准文献领域的一大分支,它是以标准文本及相关数据为来源,经由一定技术所形成的结构化知识库,通过图的形式组织和存储标准知识。
标准知识图谱在逻辑架构上也可以划分为模式层和数据层,其中数据层是用来存储标准文本中大量知识的实例层,而模式层则是位于数据层之上的概念本体层,由类模式信息组成,用于存储经过提炼的标准知识。
2. 标准知识图谱的技术路径
2.1标准知识图谱的构建方式
当前知识图谱的构建方式主要包括自上而下(Top-down)、自下而上(Bottom-up)和混合方式。
标准知识图谱宜采用混合方式构建,可采用自上而下的方式搭建标准知识图谱的模式层,以自下而上的方式半自动化地搭建标准知识图谱的数据层。
2.2 标准知识图谱的技术架构
一个完整的标准知识图谱构建流程涉及多个环节,主要包括标准数据的获取、抽取、存储和应用等
2.2.1标准知识表示
标准知识表示是标准知识图谱构建的重要基础性工作,其目的在于将标准文献中的知识转化为
计算机语言理解的结构化形式。标准知识表示需遵循可处理模糊性知识、达到机器可读水平和具有可供后续知识扩充的模块结构等基本原则。目前知识表示主要有基于网络的方法、基于逻辑的方法和基于分布式表示的方法。
2.2.2标准知识建模
标准知识建模是构建标准知识图谱模式层的重要基础,包括知识获取和知识结构化两大步骤,
旨在确定知识范围后构建机器可解释的知识模型。
在知识建模方法中,基于本体构建的技术适用于数据范围相对较小的领域知识图谱,目前七步法是
本体构建中最为常见的知识建模方法,具有步骤清晰、实践性强等优点,适合被应用于标准知识图
谱的本体构建。
2.2.3标准知识抽取
标准知识抽取是构建标准知识图谱数据层的重要基础。知识抽取隶属于信息抽取(Information Extraction,IE)技术,被视为知识图谱构建的首要任务,其目的在于从多源异构数据中抽取构建知识图谱所需的实体、关系以及实体属性等关键信息。知识抽取主要包括实体抽取、关系抽取、事件或片段抽取、属性抽取等子任务,其中又以实体抽取和关系抽取最为核心。标准文本是具有明确编写格式的非结构化技术文本,可采用基于规则和深度学习相结合的方法实现标准知识抽取。
三、探索医疗健康标准数字化转型
( 一 ) 医疗健康标准数字化需求分析
1 . 现有医疗健康标准数字化现状
2 . 医疗健康标准数字化场景
( 二 ) 医疗健康标准数字化实践与探索
1 . 单一业务标准数字化
2 . 单一标准内容数字化