simdjson-java:快3倍的JSON解析器

这是C++的simdjson的 Java 版本: 使用 SIMD 指令的 JSON 解析器,基于Geoff Langdale 和 Daniel Lemire 撰写的每秒解析千兆字节的 JSON论文 。

JSON 在互联网上随处可见。服务器花费“大量”时间来解析它。我们需要一种新的方法。simdjson C++语言库使用常用的 SIMD 指令和微并行算法,解析 JSON 的速度比 RapidJSON 快 4 倍,比现代 C++ 的 JSON 快 25 倍。

  • 快速:比常用的生产级 JSON 解析器快 4 倍以上。
  • 破纪录的功能:以 6 GB/s 的速度压缩 JSON,以 13 GB/s 的速度验证 UTF-8,以 3.5 GB/s 的速度验证 NDJSON。
  • 简单:一流、易于使用且详细记录的 API。
  • 严格:完整的 JSON 和 UTF-8 验证,无损解析。性能毫不妥协。
  • 自动:在运行时选择适合 CPU 的解析器。无需配置。
  • 可靠:从内存分配到错误处理,simdjson 的设计避免了意外。

此Java实现仍然缺少 simdsjon 中可用的几个功能。例如:

  • 支持 Unicode 字符
  • UTF-8 验证
  • 完全支持解析浮点数
  • 支持 512 位向量

使用方法:

byte\[\] json = loadTwitterJson();

SimdJsonParser parser = **new** SimdJsonParser();
JsonValue jsonValue = simdJsonParser.parse(json, json.length);
Iterator<JsonValue> tweets = jsonValue.get("statuses").arrayIterator();
**while** (tweets.hasNext()) {
    JsonValue tweet = tweets.next();
    JsonValue user = tweet.get("user");
    **if** (user.get("default\_profile").asBoolean()) {
        System.out.println(user.get("screen\_name").asString());
    }
} 

不同 JSON 解析器的Java 库性能比较。

该基准测试使用twitter.json数据集,其目标是测量解析和查找具有默认配置文件的所有唯一用户的吞吐量(操作/秒)。

环境:

  • CPU:Intel(R) Core(TM) i5-4590 CPU @ 3.30GHz
  • 操作系统:Ubuntu 23.04,内核 6.2.0-23-generic
  • Java:OpenJDK 64 位服务器 VM Temurin-20.0.1+9
simdjson-java   :   1450.951
simdjson-java(padded):       1505.227
jackson-2.15.2   :  504.562
fastjson2.0.35    :  590.743
jsoniter- 0.9.23    :  384.664

要重现基准结果,请执行以下命令:

./gradlew jmh -Pjmh.includes='.*ParseAndSelectBenchmark.*'

simdjson基本上比传统jackson、fastjson或jsoniter快3倍!

https://github.com/piotrrzysko/simdjson-java

更多JSON性能比较:https://www.jdon.com/tag-292/

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
1. 封装了几个自定义的函数, 例如 move_to_root, array_get_length, array_move_to_index, 这样可以少调用一些 X64Call; 2. 简单实现了对于类似 [0].A.B[0].C 的路径的解析取值. 接下来说一下遇到的问题和一些体验: 1. 我构造的测试数据大小是大约是 96MB , 在我的机上可以正常解析, 再大一些(例如 128MB )会崩溃, 崩溃位于 ParsedJson.allocateCapacity , 琢磨了下没琢磨明白 (温馨提示: 真要是这种大小级别了还是建议各位用 SAX 方式); 2. 除了上面这点, 还有个已知的比较隐蔽 BUG, 貌似是 print_ 这个函数的锅: 静态编译之后, 在 demo 中如果 print_ 递归打印了一个 Object 例如 [0] , 再点击解析就会在 iterator_free 崩溃. 如果只是取值就不崩溃. 3. 这个库会拷贝数据, 在针对过长的数据的时候这不是好做法, 感觉这个库更像是科研性质, 和那些千锤百炼的老牌库相比, 目前可能只有速度占优势了; 4. 机或者其它方面的限制, 我用 易语言 跑不出宣传文章中的千兆字节每秒, 不过几百 MB/s 还是有的; 5. 由于解析的时候它会拷贝数据, 我不清楚有没有可能会产生 64-bit 的内存地址, 暂时就是指针到文本当 32-bit 用, 但心里很没底, 希望 eWOW64Ext 作者有空可以帮忙看一下... @shier2817 谢谢! 6. 库用的是 10.0.17134.0 版本的 SDK /MT 编译的, 但已经无法支持 WindowXP, 低版本的 SDK 编译不过去, 对这些指令不熟悉所以没有去探究原因(也许就是不支持, 详情请翻阅 MSDN); 7. 关于编译模式: 用 MinSizeRel 生成的话, 会导致 double 取值异常, 具体原因未深究, 所以默认使用了 Release . 我将会在附件中附上三种编译模式生成的文件供各位研究: RelWithDebInfo, MinSizeRel, Release; 用到的模块: 1. 感谢 eWOW64Ext : https://bbs.125.la/thread-14322538-1-1.html 2. Jβec : https://bbs.125.la/thread-14069145-1-1.html

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值