- 博客(8)
- 收藏
- 关注
原创 Databricks CLI
2、使用databricks configure --token命令在你的终端配置databricks CLI。token可以在databricks的workspace:右上角用户图标-->Settings-->Developer-->Access tokens-->Manage-->Generate new token里生成,可以指定有效期。CLI 封装了 Databricks REST API,该 API 提供用于修改或获取有关 Databricks 帐户和workspace对象信息的端点。
2024-07-27 19:45:19
153
原创 Databricks dataframe write mode
1、用data_new覆盖原来的表dev.demo_db.my_table。结果是原来表里的数据都没有了,只剩下从data_new来的两条数据。4、使用ignore,如果表存在,不会报错,也不会执行数据的更新,会忽略这个执行,即原表数据不变。3、error or errorifexists: 如果数据存在,抛出异常。3、如果使用error,不管表里有没有数据,只要表存在,就会抛出异常。2、append是向表里追加数据,不影响原有数据。2、append:将新的数据追加到现有的数据里。
2024-07-27 14:02:53
43
原创 Databricks读取json数据(3)
可以使用withColumn将name里的forename填充到forename字段,将name里的surname填充到surname字段。withColumn会创建新的字段forename、surname,并将原有的字段覆盖。如果原来dataframe里没有forename、surname,使用withColumn,那么forename、surname就会在表的最后两列。也可以不创建forename、surname字段,在select类型为struct的name时使用如下语句。
2024-07-26 15:38:16
176
原创 Databricks读取json数据(2)
可以使用选择spark读取json数据的可选项multiLine=True,来读取数据。3、设置multiLine为True,读取json数据。2、使用struct定义表的结构。像以下这种多行的json数据。1、首先导入需要的包。
2024-07-25 22:25:36
134
原创 Databricks读取json数据(1)
1、首先定义表的结构,定义的表结构必须是pyspark.sql.types.StructType或者string类型。4、使用printSchema()查看表结构,其中nullable = true表示这个字段可以为空。2、然后将schema和数据的路径输入进去,使用spark.read。如果不定义表结构,系统会遍历源数据,自动推断表结构。3、使用display查看结果数据。
2024-07-25 21:41:39
160
原创 Databricks创建cluster
Enable autoscaling:当选择Enable autoscaling后,databricks会根据工作负载,在设置的最小wokers和最大workers之间选择合适数量的worker。Multi node既有driver,也有worker,可以配置最小worker数量和最大worker数量。可以在这里设置Spark config,设置环境变量,log的目录,初始化脚本。可以在Event log这里看到cluster的日志,如果cluster出现问题,可以在这里查找原因。
2024-07-25 15:24:03
240
原创 Databricks Unity Catalog简介
Unity Catalog是databricks的一个数据治理产品,它提供了databricks跨工作区的集中访问控制、审核、血缘关系和数据发现功能。从下面的图可以看出,没有Unity Catalog的databricks是Workspace层各自管理用户,各自存储metastore。有了Unity Catalog之后,可以集中管理不同的Workspace的用户,集中存储metastore。如,以下命令对finance-team用户授予了schema级别mycatalog.myschema创建表的权限。
2024-07-24 22:49:43
179
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人