mongodb 导出时间格式_将 MongoDB 导出成 csv

【摘要】

将 Mongodb 数据结构转换成结构化的数据需求,我们可利用集算器 SPL 语言来进行辅助实现。若想了解更多,请前往乾学院:将 MongoDB 导出成 csv!

来源:https://plus.google.com/+VicNgrail/posts/ebS9JUtFopw

Mongodb 可以存储非结构化数据,尤其擅长存储 json 格式的数据。对于习惯于数据库表结构的用户或需要使用结构化数据的用户来说,往往希望能将非结构化的数据转换成结构化的数据,以方便后面的计算,而要将这些数据导出为标准的结构化数据经常存在一定的困难。针对这种情况,我们可以利用集算器 SPL 语言来辅助 MongoDB,方便地导出结构化数据,下面用例子说明。

Collection carInfo 的部分数据如下:

{

“_id” : ObjectId(“5518f6f8a82a704fe4216a43”),

“id” : “No1”,

“cars” : {

“name” : “Putin”,

“car” : [“porche”, “bmw”]

}

}

{

“_id” : ObjectId(“5518f745a82a704fe4216a44”),

“id” : “No2”,

“cars” : {

“name” : “jack”,

“car” : [“Toyota”, “Jetta”, “Audi”]

}

}

……

需要将其导出为CSV文件,期望的数据格式如下:

使用集算器SPL的代码如下:

A1: 连接MongoDB,连接字格式为mongo://ip:port/db?arg=value&…

A2: 使用find函数从集合carInfo中取数,形成游标。过滤条件是空,取出_id之外的所有字段。

A3: 取出需要的字段,拼接合成结构化二维表,结果仍然是游标。其中~表示A2中的每个document,并对cars.car字段进行拆分成行后组成序表,函数conj表示对序表纵向合并。

A4: 将A3导出为逗号分隔的csv文件,其中@t表示导出时带列名。SPL引擎会自动管理缓存,每次从游标取一批记录到内存进行计算。

A5: 关闭MongoDB。

如果用户想自己管理每批处理的数据,也可以用下面的代码:

A3: 循环从游标读数,每次读1000条到内存。A3的作用范围是缩进的B3到B4,其间可以用A3来引用循环变量。A3中的数据如下:

B3:将本批次数据转换为结构化二维表,如下:

B4:将本批次的计算结果追加到文件中,其中@a表示数据追加。

简言之,SPL得到数据集合的游标后,将每个document按car字段拆分后组成序表,将序表合并或以追加方式保存为文件即可。显然,对于这类非结构化数据向结构化数据的转换,SPL语言的处理非常高效且简明。

相关文章:

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值