“平民化”半结构数据处理

伴随着大数据技术的兴起,半结构化数据得到了迅猛发展,时至今日仍趋势不减。半结构化数据被视为一种特殊的结构化数据,其拥有语义元素,是一种自描述结构。常见的半结构数据格式有,XML、Json等。据IDC预测,2025年,结构化数据规模将达35ZB,约占数据总量的20%。虽无准确数据表明半结构化数据在结构化数据中的占比。但通过我们对日常生产、生活中遇到的各类数据格式推断,半结构化数据占有结构化数据的半壁江山不算为过。比如,我们生活中最常遇到的HTML数据等就是一种特殊的XML结构。伴随着半结构化数据的广泛应用,面向半结构化数据的分析处理需求也不断提升。

对于半结构化数据,鉴于其格式表达的灵活性,目前主要的分析处理手段都是通过编程来实现的。各类不同的编程语言,如:Python、Java、GO等都为XML、Json等格式的处理提供了对应的开发包。开发人员可以非常便捷的使用这些开发包,完成对半结构化数据的处理。但对于主要面向业务的数据科学从业人员,要求其同时具备良好的编程能力,则相对比较困难。现实中,通晓业务知识并拥有编程能力的从业者凤毛麟角。即便有,也身价不低。这类工作往往是通过分工合作的方式来完成的,即业务知识专家和开发工程师共同合作完成。但合作中因为存在大量沟通,所以工作效率难于大幅提升。

在“小”数据时代,数据科学从业者已经习惯了有一众“低代码”工具(笔者的上一篇《“平民化”非结构数据处理》中有提及,有兴趣的可以去看那篇文章)辅助其实现数据的处理与分析。那么在大数据时代,如果能有同样概念的“低代码”工具帮助数据科学从业者完成半结构化数据的处理与分析,那么就能大大降低从业者的技能要求。

为此笔者团队在自研的“低代码”工具平台中加入了对半结构化数据的支持能力。相较于结构化数据与非结构化数据,半结构化数据的处理,要求具备更多的编程概念。如下Json数据格式样例:

{
 "field": "字段",
  "array": [
   {
     "complexInArray": {
       "field": "字段"
     }
}
  ],
  "complex": {
    "field": "字段"
  }
}

由于半结构化数据除了支持如字符串、数值、布尔值等简单数据类型外,还支持数组以及复杂结构类型。这使得使用者需要拥有这些数据类型概念,才能正确处理对应的数据信息。由于半结构化数据形成了一个类似树结构的数据组织形式,因此需要一种统一的表达的方式来约定访问结构中的每一个元素。一般而言有两种表达方式,一种是用Path路径方式描述,如:/o/array[0]/field;/o/complex/field;另一种是用“.”成员运算符的方式描述,如:o.array[0].field;o.complex.field。两者在语义上表达的效果是一致的,第一个表达式都是用来访问上例中数组第一个元素的field字段;而第二个表达式都是用来访问上例中复杂结构的field字段。需要注意的是表达式中的“o”代表了整个Json对象,是一种人为约定。笔者团队开发的数据科学平台使用成员运算符表达式作为表述方式。该表述方式更接近编程语言风格,可与平台提供的诸如函数调用等表达式统一风格。

在最近接触的项目中,客户有将从公开网站获取的CPE、CVE数据导入数据库作为基础知识的需求。从网络中直接获取的原始CPE数据为XML格式;CVE为Json格式。下面将详细介绍下如何通过平台导入CPE数据,并简单介绍下CVE的数据导入过程。

1.CPE数据导入

CPE数据的格式如下:

<cpe-list>
  <generator>
    <product_name>National Vulnerability Database (NVD)</product_name>
    <product_version>4.9</product_version>
    <schema_version>2.3</schema_version>
    <timestamp>2022-04-19T03:51:13.055Z</timestamp>
  </generator>
  <cpe-item name="cpe:/a:%240.99_kindle_books_project:%240.99_kindle_books:6::~~~android~~">
    <title xml:lang="en-US">$0.99 Kindle Books project $0.99 Kindle Books (aka com.kindle.books.for99) for android 6.0</title>
    <references>
      <reference href="https://play.google.com/store/apps/details?id=com.kindle.books.for99">Product information</reference>
      <reference href="https://docs.google.com/spreadsheets/d/1t5GXwjw82SyunALVJb2w0zi3FoLRIkfGPc7AMjRF0r4/edit?pli=1#gid=1053404143">Government Advisory</reference>
    </references>
    <cpe-23:cpe23-item name="cpe:2.3:a:\$0.99_kindle_books_project:\$0.99_kindle_books:6:*:*:*:*:android:*:*"/>
  </cpe-item>
  <cpe-item name="cpe:/a:%40thi.ng%2fegf_project:%40thi.ng%2fegf:-::~~~node.js~~">
    <title xml:lang="en-US">@thi.ng/egf Project @thi.ng/egf for Node.js</title>
    <references>
      <reference href="https://github.com/thi-ng/umbrella/security/advisories/GHSA-rj44-gpjc-29r7">Advisory</reference>
      <reference href="https://www.npmjs.com/package/@thi.ng/egf">Version</reference>
    </references>
    <cpe-23:cpe23-item name="cpe:2.3:a:\@thi.ng\/egf_project:\@thi.ng\/egf:-:*:*:*:*:node.js:*:*"/>
  </cpe-item>
  ……

在<cpe-list>标签下包含多个<cpe-item>标签。每个<cpe-item>中都含有一个<cpe-23:cpe23-item>标签。数据处理时,需要提取出每个<cpe-23:cpe23-item>标签的name属性,如:

“cpe:2.3:a:\$0.99_kindle_books_project:\$0.99_kindle_books:6:*:*:*:*:android:*:*”

并根据CPE的编码规范拆解各字段,最后将拆解后的数据插入数据库中。使用平台搭建的输出处理流程如下:

  1. cpe原始文件:读取CPE原始XML文件

  1. 文件拆分:由于该原始XML文件较大,作为整体文件进行全部装载时占用内存资源较大,故先将其按照XML格式拆解为多个小文件。每个小文件中都包含多个<cpe-item>标签。

  1. 全文读取:将各个小文件读取成文本形式。

  1. 文本替换:替换掉文本中的特殊符号。如标签<cpe-23:cpe23-item>,‘:’,‘-’两个符号在XML标签中是合法的,但是当我们采用成员运算符表达式访问时,其并不符合编程语言的命名规范。我们需要将这些标签名替换为程序的合法名,如:<cpe-23:cpe23-item>将被替换为<cpe_23_cpe23_item>。

  1. 流输入转换器:将替换后的文本转换为XML算子可以读取的数据格式

  1. Xml读取:读取文本中的<cpe_23_cpe23_item>标签。

如上图所示,标签<cpe-list>被替换为<XmlStream>,标签<cpe-item>被替换为<cpe_item>,<cpe-23:cpe23-item>被替换为<cpe_23_cpe23_item>。图中将XML中的XmlStream.cpe_item命名为da,使用da.cpe_23_cpe23_item访问<cpe_23_cpe23_item>标签中的内容,并将它以item的列名输出。后续算子可以通过列名item访问到对应的标签数据。

需要注意的是,笔者平台提供的所有半结构化数据处理算子在遇到数组型数据时,如果需要访问数组内部的数据对象属性,则需为其命名别名。并在后续配置中使用该别名代表数组中的每个数据对象。如上例中为XmlStream.cpe_item命名为别名da,并使用da代表数组中的cpe_item对象,访问其cpe_23_cpe23_item属性。若不需访问内部数据对象,则可不为其命名别名。直接输出XmlStream.cpe_item时,该值为一个XmlElement的数组。平台允许表达和输出对象数组嵌套对象数组的复杂结构。

  1. 值分割:将Xml读取算子输出的item列的按CPE编码规范进行切分

  1. MySQL写出:将切分好的数据输出到对应的MySQL表中。

流程运行结束后,共有866446条数据被插入对应数据表,效果如下:

2.CVE数据导入

CVE数据格式为Json,其数据处理流程如下图:

该数据处理流程的处理步骤与CPE略有不同,但其核心差异主要是其采用了Json格式的读取算子,并最终将数据写入了ElasticSearch中。其中Json读取算子的结构配置如下图:

由于CVE数据的数据格式比CPE复杂不少,故其数据的输出结构也复杂了不少。数据流程的执行结果如下:

笔者团队提供的数据科学平台除能支持XML、Json两种半结构化数据格式外,还支持Avro以及ProtoBuf两种常用格式。所有半结构化数据处理算子在配置使用时风格一致,可有效降低数据处理人员的学习成本及编程技能要求,从而实现半结构化数据的“平民化”处理。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值