“平民化”半结构数据处理

最新推荐文章于 2025-01-01 10:49:10 发布

colorknight

最新推荐文章于 2025-01-01 10:49:10 发布

阅读量781

点赞数

文章标签：大数据 etl

本文链接：https://blog.csdn.net/colorknight/article/details/128961793

版权

伴随着大数据技术的兴起，半结构化数据得到了迅猛发展，时至今日仍趋势不减。半结构化数据被视为一种特殊的结构化数据，其拥有语义元素，是一种自描述结构。常见的半结构数据格式有，XML、Json等。据IDC预测，2025年，结构化数据规模将达35ZB，约占数据总量的20%。虽无准确数据表明半结构化数据在结构化数据中的占比。但通过我们对日常生产、生活中遇到的各类数据格式推断，半结构化数据占有结构化数据的半壁江山不算为过。比如，我们生活中最常遇到的HTML数据等就是一种特殊的XML结构。伴随着半结构化数据的广泛应用，面向半结构化数据的分析处理需求也不断提升。

对于半结构化数据，鉴于其格式表达的灵活性，目前主要的分析处理手段都是通过编程来实现的。各类不同的编程语言，如：Python、Java、GO等都为XML、Json等格式的处理提供了对应的开发包。开发人员可以非常便捷的使用这些开发包，完成对半结构化数据的处理。但对于主要面向业务的数据科学从业人员，要求其同时具备良好的编程能力，则相对比较困难。现实中，通晓业务知识并拥有编程能力的从业者凤毛麟角。即便有，也身价不低。这类工作往往是通过分工合作的方式来完成的，即业务知识专家和开发工程师共同合作完成。但合作中因为存在大量沟通，所以工作效率难于大幅提升。

在“小”数据时代，数据科学从业者已经习惯了有一众“低代码”工具(笔者的上一篇《“平民化”非结构数据处理》中有提及，有兴趣的可以去看那篇文章)辅助其实现数据的处理与分析。那么在大数据时代，如果能有同样概念的“低代码”工具帮助数据科学从业者完成半结构化数据的处理与分析，那么就能大大降低从业者的技能要求。

为此笔者团队在自研的“低代码”工具平台中加入了对半结构化数据的支持能力。相较于结构化数据与非结构化数据，半结构化数据的处理，要求具备更多的编程概念。如下Json数据格式样例：

{
 "field": "字段",
  "array": [
   {
     "complexInArray": {
       "field": "字段"
     }
}
  ],
  "complex": {
    "field": "字段"
  }
}

由于半结构化数据除了支持如字符串、数值、布尔值等简单数据类型外，还支持数组以及复杂结构类型。这使得使用者需要拥有这些数据类型概念,才能正确处理对应的数据信息。由于半结构化数据形成了一个类似树结构的数据组织形式，因此需要一种统一的表达的方式来约定访问结构中的每一个元素。一般而言有两种表达方式，一种是用Path路径方式描述，如：/o/array[0]/field；/o/complex/field；另一种是用“.”成员运算符的方式描述，如:o.array[0].field；o.complex.field。两者在语义上表达的效果是一致的，第一个表达式都是用来访问上例中数组第一个元素的field字段；而第二个表达式都是用来访问上例中复杂结构的field字段。需要注意的是表达式中的“o”代表了整个Json对象，是一种人为约定。笔者团队开发的数据科学平台使用成员运算符表达式作为表述方式。该表述方式更接近编程语言风格，可与平台提供的诸如函数调用等表达式统一风格。

在最近接触的项目中，客户有将从公开网站获取的CPE、CVE数据导入数据库作为基础知识的需求。从网络中直接获取的原始CPE数据为XML格式；CVE为Json格式。下面将详细介绍下如何通过平台导入CPE数据，并简单介绍下CVE的数据导入过程。

1.CPE数据导入

CPE数据的格式如下：

<cpe-list>
  <generator>
    <product_name>National Vulnerability Database (NVD)</product_name>
    <product_version>4.9</product_version>
    <schema_version>2.3</schema_version>
    <timestamp>2022-04-19T03:51:13.055Z</timestamp>
  </generator>
  <cpe-item name="cpe:/a:%240.99_kindle_books_project:%240.99_kindle_books:6::~~~android~~">
    <title xml:lang="en-US">$0.99 Kindle Books project $0.99 Kindle Books (aka com.kindle.books.for99) for android 6.0</title>
    <references>
      <reference href="https://play.google.com/store/apps/details?id=com.kindle.books.for99">Product information</reference>
      <reference href="https://docs.google.com/spreadsheets/d/1t5GXwjw82SyunALVJb2w0zi3FoLRIkfGPc7AMjRF0r4/edit?pli=1#gid=1053404143">Government Advisory</reference>
    </references>
    <cpe-23:cpe23-item name="cpe:2.3:a:\$0.99_kindle_books_project:\$0.99_kindle_books:6:*:*:*:*:android:*:*"/>
  </cpe-item>
  <cpe-item name="cpe:/a:%40thi.ng%2fegf_project:%40thi.ng%2fegf:-::~~~node.js~~">
    <title xml:lang="en-US">@thi.ng/egf Project @thi.ng/egf for Node.js</title>
    <references>
      <reference href="https://github.com/thi-ng/umbrella/security/advisories/GHSA-rj44-gpjc-29r7">Advisory</reference>
      <reference href="https://www.npmjs.com/package/@thi.ng/egf">Version</reference>
    </references>
    <cpe-23:cpe23-item name="cpe:2.3:a:\@thi.ng\/egf_project:\@thi.ng\/egf:-:*:*:*:*:node.js:*:*"/>
  </cpe-item>
  ……

在<cpe-list>标签下包含多个<cpe-item>标签。每个<cpe-item>中都含有一个<cpe-23:cpe23-item>标签。数据处理时，需要提取出每个<cpe-23:cpe23-item>标签的name属性，如：

“cpe:2.3:a:\$0.99_kindle_books_project:\$0.99_kindle_books:6:*:*:*:*:android:*:*”

并根据CPE的编码规范拆解各字段，最后将拆解后的数据插入数据库中。使用平台搭建的输出处理流程如下：

cpe原始文件：读取CPE原始XML文件

文件拆分：由于该原始XML文件较大，作为整体文件进行全部装载时占用内存资源较大，故先将其按照XML格式拆解为多个小文件。每个小文件中都包含多个<cpe-item>标签。

全文读取：将各个小文件读取成文本形式。

文本替换：替换掉文本中的特殊符号。如标签<cpe-23:cpe23-item>，‘:’，‘-’两个符号在XML标签中是合法的，但是当我们采用成员运算符表达式访问时，其并不符合编程语言的命名规范。我们需要将这些标签名替换为程序的合法名，如：<cpe-23:cpe23-item>将被替换为<cpe_23_cpe23_item>。

流输入转换器：将替换后的文本转换为XML算子可以读取的数据格式

Xml读取：读取文本中的<cpe_23_cpe23_item>标签。

如上图所示，标签<cpe-list>被替换为<XmlStream>，标签<cpe-item>被替换为<cpe_item>，<cpe-23:cpe23-item>被替换为<cpe_23_cpe23_item>。图中将XML中的XmlStream.cpe_item命名为da，使用da.cpe_23_cpe23_item访问<cpe_23_cpe23_item>标签中的内容，并将它以item的列名输出。后续算子可以通过列名item访问到对应的标签数据。

需要注意的是，笔者平台提供的所有半结构化数据处理算子在遇到数组型数据时，如果需要访问数组内部的数据对象属性，则需为其命名别名。并在后续配置中使用该别名代表数组中的每个数据对象。如上例中为XmlStream.cpe_item命名为别名da，并使用da代表数组中的cpe_item对象，访问其cpe_23_cpe23_item属性。若不需访问内部数据对象，则可不为其命名别名。直接输出XmlStream.cpe_item时，该值为一个XmlElement的数组。平台允许表达和输出对象数组嵌套对象数组的复杂结构。