Azure Databricks是一个可扩展的数据分析平台,基于Apache Spark。Azure Databricks 工作区(Workspace)是一个交互式的环境,工作区把对象(notebook、library、dashboards、experiments)组织成文件夹,用于数据集成和数据分析。
一,Azure Databricks的基本概念
1,工作区是一个交互式的环境
工作区是一个交互式的环境,可以管理Databricks的集群、Notebook、Job等对象。
2,集群是运行Notebook和job的资源
在使用工作区中,要进行数据集成和数据分析,必须创建集群(Cluster),Cluser代表运行notebook和job的计算资源,并用于存储相应的配置信息。
Cluster有两种类型:通用(All-purpose)和job,all-purpose集群是交互式的,用于通用的数据集成和数据分析任务,而job类型的集群用于定时运行job。
Job用于立即或按照计划来运行notebook或library。job类型的集群在job开始时创建,在job完成时结束。
根据cluster的类型,把Azure Databricks的工作负载(workload)分为两个类型:data engineering (job) 和 data analytics (all-purpose)。
- 数据工程:(自动)工作负载在Job群集上运行,Azure Databricks