自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 Databricks CLI

2、使用databricks configure --token命令在你的终端配置databricks CLI。token可以在databricks的workspace:右上角用户图标-->Settings-->Developer-->Access tokens-->Manage-->Generate new token里生成,可以指定有效期。CLI 封装了 Databricks REST API,该 API 提供用于修改或获取有关 Databricks 帐户和workspace对象信息的端点。

2024-07-27 19:45:19 153

原创 Databricks dataframe write mode

1、用data_new覆盖原来的表dev.demo_db.my_table。结果是原来表里的数据都没有了,只剩下从data_new来的两条数据。4、使用ignore,如果表存在,不会报错,也不会执行数据的更新,会忽略这个执行,即原表数据不变。3、error or errorifexists: 如果数据存在,抛出异常。3、如果使用error,不管表里有没有数据,只要表存在,就会抛出异常。2、append是向表里追加数据,不影响原有数据。2、append:将新的数据追加到现有的数据里。

2024-07-27 14:02:53 43

原创 Databricks读取json数据(3)

可以使用withColumn将name里的forename填充到forename字段,将name里的surname填充到surname字段。withColumn会创建新的字段forename、surname,并将原有的字段覆盖。如果原来dataframe里没有forename、surname,使用withColumn,那么forename、surname就会在表的最后两列。也可以不创建forename、surname字段,在select类型为struct的name时使用如下语句。

2024-07-26 15:38:16 176

原创 Databricks读取json数据(2)

可以使用选择spark读取json数据的可选项multiLine=True,来读取数据。3、设置multiLine为True,读取json数据。2、使用struct定义表的结构。像以下这种多行的json数据。1、首先导入需要的包。

2024-07-25 22:25:36 134

原创 Databricks读取json数据(1)

1、首先定义表的结构,定义的表结构必须是pyspark.sql.types.StructType或者string类型。4、使用printSchema()查看表结构,其中nullable = true表示这个字段可以为空。2、然后将schema和数据的路径输入进去,使用spark.read。如果不定义表结构,系统会遍历源数据,自动推断表结构。3、使用display查看结果数据。

2024-07-25 21:41:39 160

原创 Databricks创建cluster

Enable autoscaling:当选择Enable autoscaling后,databricks会根据工作负载,在设置的最小wokers和最大workers之间选择合适数量的worker。Multi node既有driver,也有worker,可以配置最小worker数量和最大worker数量。可以在这里设置Spark config,设置环境变量,log的目录,初始化脚本。可以在Event log这里看到cluster的日志,如果cluster出现问题,可以在这里查找原因。

2024-07-25 15:24:03 240

原创 创建Azure Databricks workspace

点击Create点击review+create创建等待验证完成,点击create。

2024-07-24 22:59:45 117

原创 Databricks Unity Catalog简介

Unity Catalog是databricks的一个数据治理产品,它提供了databricks跨工作区的集中访问控制、审核、血缘关系和数据发现功能。从下面的图可以看出,没有Unity Catalog的databricks是Workspace层各自管理用户,各自存储metastore。有了Unity Catalog之后,可以集中管理不同的Workspace的用户,集中存储metastore。如,以下命令对finance-team用户授予了schema级别mycatalog.myschema创建表的权限。

2024-07-24 22:49:43 179

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除