Databricks文档01----Azure Databricks初探

阿特

已于 2022-03-20 14:14:33 修改

阅读量4.5k

点赞数 3

分类专栏： Azure 大数据 Databricks 文章标签： databricks bigdata 机器学习 datalake spark

于 2022-03-20 13:56:43 首次发布

本文链接：https://blog.csdn.net/capsicum29/article/details/123611923

版权

Azure 同时被 3 个专栏收录

34 篇文章 4 订阅

订阅专栏

大数据

15 篇文章 1 订阅

订阅专栏

Databricks

5 篇文章 4 订阅

订阅专栏

Azure Databricks 是一个已针对 Microsoft Azure 云服务平台进行优化的数据分析平台。

Azure Databricks 提供了三种用于开发数据密集型应用程序的环境：

Databricks 数据科学工程
Databricks 机器学习
Databricks SQL

Databricks SQL 为想要针对数据湖运行 SQL 查询、创建多种可视化类型以从不同角度探索查询结果，以及生成和共享仪表板的分析员提供了一个易于使用的平台。

Databricks 数据科学工程 提供了一个交互式工作区，可在数据工程师、数据科学家和机器学习工程师之间实现协作。使用大数据管道时，原始或结构化的数据将通过 Azure 数据工厂以批的形式引入 Azure，或者通过 Apache Kafka、事件中心或 IoT 中心进行准实时的流式传输。此数据将驻留在 Data Lake（长久存储）、Azure Blob 存储或 Azure Data Lake Storage 中。在分析工作流中，使用 Azure Databricks 从多个数据源读取数据，并使用 Spark 将数据转换为突破性见解。

Databricks 机器学习是一个集成式端到端机器学习环境，其中整合了用于试验跟踪、模型训练、特征开发和管理以及特征与模型传送的托管服务。

若要选择环境，启动一个 Azure Databricks 工作区并使用边栏中的角色切换器：

什么是Databricks Data Science & Engineering

Databricks Data Science & Engineering (有时只称为"工作区"，) 是基于工作区的分析Apache Spark。它与 Azure 集成，以提供一键式安装程序、简化的工作流程以及交互式工作区，从而使数据工程师、数据科学家和机器学习工程师之间可以进行协作。

使用大数据管道时，原始或结构化的数据将通过 Azure 数据工厂以批的形式引入 Azure，或者通过 Apache Kafka、事件中心或 IoT 中心进行准实时的流式传输。此数据将驻留在 Data Lake（长久存储）、Azure Blob 存储或 Azure Data Lake Storage 中。在运行分析工作流的过程中，可以使用 Azure Databricks 从 Azure Blob 存储、Azure Data Lake Storage、Azure Cosmos DB 或 Azure SQL 数据仓库等多个数据源读取数据，并使用 Spark 将数据转化为前所未有的见解。

Apache Spark 分析平台

Databricks Data Science & Engineering 包含完整的开源Apache Spark群集技术和功能。 Databricks Data Science Engineering 中的 & Spark 包括以下组件：

Spark SQL 和数据帧：Spark SQL 是用于处理结构化数据的 Spark 模块。数据帧是已组织成命名列的分布式数据集合。它在概念上相当于关系型数据库中的表，或 R/Python 中的数据帧。
流式处理：实时数据处理和分析，适用于分析与交互式应用程序。与 HDFS、Flume 和 Kafka 集成。
MLlib：由常见学习算法和实用工具（包括分类、回归、群集、协作筛选、维数约简以及底层优化基元）组成的机器学习库。
GraphX：图形和图形计算，适用于从认知分析到数据探索的广泛用例。
Spark Core API：包含对 R、SQL、Python、Scala 和 Java 的支持。

Azure Databricks 中的 Apache Spark

Azure Databricks 构建在 Spark 功能的基础之上，提供一个无管理云平台，其中包括：

完全托管的 Spark 群集
可浏览和可视化数据的交互式工作区
一个为你喜爱的 Spark 应用程序提供支持的平台

在云中完全托管的 Apache Spark 群集

Azure Databricks 在云中拥有安全可靠的生产环境，由 Spark 专家进行管理和提供支持。可以：

在几秒钟内创建群集。
动态自动扩展和缩减群集并在团队中共享群集。
通过调用 REST API 以编程方式使用群集。
使用基于 Spark 的安全数据集成功能，在无需集中化的情况下统一数据。
即时获得每个版本中的最新 Apache Spark 功能。

Databricks Runtime

Databricks 运行时构建在 Apache Spark 的基础之上，是针对 Azure 云以原生方式构建的。

Azure Databricks 通过高度抽象化彻底消除了基础结构复杂性，无需专业知识就能设置和配置数据基础结构。

对于关注生产作业性能的数据工程师而言，Azure Databricks 通过 I/O 层和处理层 (Databricks I/O) 的各种优化提供了一个更快速、更高效的 Spark 引擎。

实现协作的工作区

Databricks Data Science & Engineering 通过协作和集成环境简化了在 Spark 中浏览数据、原型制作和运行数据驱动应用程序的过程。

通过简单的数据浏览确定如何使用数据。
在以 R、Python、Scala 或 SQL 编写的笔记本中记录进度。
几步内即可实现数据可视化，可使用熟悉的工具，例如 Matplotlib、ggplot 或 d3。
使用交互式仪表板创建动态报告。
在使用 Spark 的同时与数据交互。

企业安全性

Azure Databricks 提供企业级的 Azure 安全性，包括 Azure Active Directory 集成、基于角色的控制，以及可保护数据和业务的 SLA。

与 Azure Active Directory 集成后，可以使用 Azure Databricks 运行基于 Azure 的完整解决方案。
Azure Databricks 基于角色的访问可以细化用户对笔记本、群集、作业和数据的权限。
企业级 SLA。

与 Azure 服务集成

Databricks Data Science & Engineering 与 Azure 数据库和存储深度集成：Synapse Analytics、Cosmos DB、Data Lake Store和 Blob 存储。

与 Power BI 集成

通过与 Power BI 的丰富集成，Databricks 数据&科学工程可让你快速轻松地发现和共享具有影响力的见解。还可以使用其他 BI 工具，例如 Tableau 软件。

什么是 Databricks 机器学习

Databricks 机器学习（预览版）是一个集成式端到端机器学习平台，其中整合了用于试验跟踪、模型训练、特征开发和管理、特征与模型传送的托管服务。此图显示了 Databricks 的功能如何与模型开发和部署过程的各个步骤相契合。

利用 Databricks 机器学习，可以：

使用 AutoML 或手动训练模型。
通过 MLflow 跟踪使用试验跟踪训练参数和模型。
创建并访问特征表来进行模型训练和推理。
使用模型注册表分享、管理和传送模型。

对于机器学习应用程序，Databricks 提供了用于机器学习的 Databricks Runtime，这是 Databricks Runtime 的一种变型，包含许多常见的机器学习库。

Databricks 机器学习特征

特征存储

借助特征存储，可对 ML 特征进行分类，并使其可用于训练和传送，从而提高重用性。通过基于数据世系的特征搜索来利用自动记录的数据源，可使用无需对客户端应用程序进行更改的简化模型部署来提供特征用于训练和传送。

试验

通过 MLflow 试验，可直观呈现、搜索和比较运行，还可下载运行项目和元数据，便于在其他工具中进行分析。通过试验页面可快速访问组织中的 MLflow 试验。可通过从 Azure Databricks 笔记本和作业中记录到这些试验来跟踪机器学习模型开发。

模型

Azure Databricks 提供一种托管版本的 MLflow 模型注册表来帮助你管理 MLflow 模型的完整生命周期。模型注册表提供按时间顺序记录的模型世系（MLflow 试验和运行在给定时间生成模型）、模型版本控制、阶段转换（例如从“暂存”到“生产”或“已存档”），以及模型事件的电子邮件通知。你还可创建和查看模型说明，并留下注释。

自动化 ML

通过 AutoML 可根据数据自动生成机器学习模型，并更快投入生产环境。它为模型训练准备数据集，然后执行并记录一组试验，从而创建、优化和评估多个模型。它会显示结果，并提供一个 Python 笔记本，里面有每个试验运行的源代码，使你可查看、重现和修改代码。 AutoML 还会计算数据集的汇总统计信息，并将此信息保存在稍后可查看的笔记本中。

用于机器学习的 Databricks Runtime

用于机器学习的 Databricks Runtime (Databricks Runtime ML) 自动创建针对机器学习优化的群集。 Databricks Runtime ML 群集包括最常见的机器学习库，例如 TensorFlow、PyTorch、Keras 和 XGBoost，还包括分布式训练所需的库，如 Horovod。使用 Databricks Runtime ML 可以加快群集创建速度，并确保已安装的库版本兼容。