地老鼠PN_1-CSDN博客

原创 Databricks CLI

2、使用databricks configure --token命令在你的终端配置databricks CLI。token可以在databricks的workspace：右上角用户图标-->Settings-->Developer-->Access tokens-->Manage-->Generate new token里生成，可以指定有效期。CLI 封装了 Databricks REST API，该 API 提供用于修改或获取有关 Databricks 帐户和workspace对象信息的端点。

2024-07-27 19:45:19 153

原创 Databricks dataframe write mode

1、用data_new覆盖原来的表dev.demo_db.my_table。结果是原来表里的数据都没有了，只剩下从data_new来的两条数据。4、使用ignore，如果表存在，不会报错，也不会执行数据的更新，会忽略这个执行，即原表数据不变。3、error or errorifexists: 如果数据存在，抛出异常。3、如果使用error，不管表里有没有数据，只要表存在，就会抛出异常。2、append是向表里追加数据，不影响原有数据。2、append:将新的数据追加到现有的数据里。

2024-07-27 14:02:53 43

原创 Databricks读取json数据（3）

可以使用withColumn将name里的forename填充到forename字段，将name里的surname填充到surname字段。withColumn会创建新的字段forename、surname，并将原有的字段覆盖。如果原来dataframe里没有forename、surname，使用withColumn，那么forename、surname就会在表的最后两列。也可以不创建forename、surname字段，在select类型为struct的name时使用如下语句。

2024-07-26 15:38:16 176

原创 Databricks读取json数据（2）

可以使用选择spark读取json数据的可选项multiLine=True，来读取数据。3、设置multiLine为True，读取json数据。2、使用struct定义表的结构。像以下这种多行的json数据。1、首先导入需要的包。

2024-07-25 22:25:36 134

原创 Databricks读取json数据（1）

1、首先定义表的结构，定义的表结构必须是pyspark.sql.types.StructType或者string类型。4、使用printSchema()查看表结构，其中nullable = true表示这个字段可以为空。2、然后将schema和数据的路径输入进去，使用spark.read。如果不定义表结构，系统会遍历源数据，自动推断表结构。3、使用display查看结果数据。

2024-07-25 21:41:39 160

原创 Databricks创建cluster

Enable autoscaling:当选择Enable autoscaling后，databricks会根据工作负载，在设置的最小wokers和最大workers之间选择合适数量的worker。Multi node既有driver，也有worker，可以配置最小worker数量和最大worker数量。可以在这里设置Spark config，设置环境变量，log的目录，初始化脚本。可以在Event log这里看到cluster的日志，如果cluster出现问题，可以在这里查找原因。

2024-07-25 15:24:03 240

原创创建Azure Databricks workspace

点击Create点击review+create创建等待验证完成，点击create。

2024-07-24 22:59:45 117

原创 Databricks Unity Catalog简介

Unity Catalog是databricks的一个数据治理产品，它提供了databricks跨工作区的集中访问控制、审核、血缘关系和数据发现功能。从下面的图可以看出，没有Unity Catalog的databricks是Workspace层各自管理用户，各自存储metastore。有了Unity Catalog之后，可以集中管理不同的Workspace的用户，集中存储metastore。如，以下命令对finance-team用户授予了schema级别mycatalog.myschema创建表的权限。

2024-07-24 22:49:43 179

dilaoshuPN的博客