官方文档: Spark Release 3.2.0 | Apache Spark
参考资料:https://www.modb.pro/db/183007
spark3.2.0是3.x的第三个发布版本。此版本解决了超过 1700 个Jira问题。
在这个版本,支持Pandas API,RocksDB StateStore,会话窗口,基于推送的 shuffle 支持、ANSI SQL INTERVAL 类型、默认启用自适应查询执行 (AQE) 和 ANSI SQL 模式 GA。
详细改动可见JIRA列表:Release Notes - ASF JIRA
按模块区分为:
- Highlights
- Core and Spark SQL
- Structured Streaming
- PySpark
- MLlib
- SparkR
- GraphX
- Deprecations and Removals
- Known Issues
- Credits
Hightlights 特别重要的特性
- 在 PySpark 上支持 Pandas API 层 Support Pandas API layer on PySpark (SPARK-34849)
- 默认启用自适应查询执行(AQE) Enable adaptive query execution by default (SPARK-33679)
- 支持push-based shuffle,提高shuffle效率 Support push-based shuffle to improve shuffle efficiency (SPARK-30602)
- 添加 RocksDB StateStore 实现 Add RocksDB StateStore implementation (SPARK-34198)
- 基于 EventTime 的会话化(会话窗口) EventTime based sessionization (session window) (