Python使用 Delta Lake
今天我们看一下如何在Python 中使用 Delta Lake,毕竟现在很多人开发Spark任务是通过Python而不是scala,当然这也体现了Spark 生态的完善。
当然我们还是要看一下版本的兼容情况
Delta Lake version | Apache Spark version |
---|---|
1.0.x | 3.1.x |
0.7.x and 0.8.x | 3.0.x |
Below 0.7.0 | 2.4.2 - 2.4. |
环境准备
通过上面的表格,我们可以使用Delta Lake
的最新版本,也就是1.0 但是我们的Spark 却不能使用最新版本的,只能使用3.1,这里我们就安装pyspark,执行
pip install pyspark==3.1.2