Databricks 第6篇：Spark SQL 维护数据库和表

最新推荐文章于 2024-05-05 23:48:36 发布

悦光阴

最新推荐文章于 2024-05-05 23:48:36 发布

阅读量1.2k

点赞数

文章标签：数据库数据仓库 python mysql java

本文链接：https://blog.csdn.net/upluck/article/details/116968436

版权

本文详细介绍了如何在Databricks中使用Spark SQL管理数据库和表，包括创建、查看、删除数据库，创建数据表，以及数据源的交互和数据插入操作。重点讲解了CREATE TABLE命令的不同用法，如标准创建、Delta Lake创建，以及INSERT INTO和INSERT OVERWRITE的区别。

摘要由CSDN通过智能技术生成

Spark SQL 表的命名方式是db_name.table_name，只有数据库名称和数据表名称。如果没有指定db_name而直接引用table_name，实际上是引用default 数据库下的表。在Spark SQL中，数据库只是指定表文件存储的路径，每个表都可以使用不同的文件格式来存储数据，从这个角度来看，可以把database看作是Databricks 表的上层目录，用于组织数据表及其文件。

在python语言环境中，可以使用 %sql 切换到SQL命令模式：

%sql

一，管理数据库

常用的数据库命令，切换当前的数据库、显示数据库列表、表列表、视图列表和列信息：

use db_name
show databases 
show tables [in db_name]
show views [in db_name]
show columns in db_name.table_name

1，创建数据库

创建数据库，通过LOCATION 指定数据库文件存储的位置：

CREATE { DATABASE | SCHEMA } [ IF NOT EXISTS ] database_name
    [ LOCATION database_directory ]

LOCATION database_directory：指定存储数据库文件系统的路径，如果底层的文件系统中不存在该路径，那么需要先创建该目录。如果未指定LOCATION参数，那么使用默认的数据仓库目录来创建数据库，默认的数据仓库目录是由静态配置参数spark.sql.warehouse.dir指定的。

2，查看数据库的描述

{ DESC | DESCRIBE } DATABASE [ EXTENDED ] db_name

extended 选项表示查看数据库的扩展属性。

3，删除数据库

DROP { DATABASE | SCHEMA } [ IF EXISTS ] dbname [ RESTRICT | CASCADE ]

IF EXISTS：该选项表示在数据库不存在时，DROP操作不会引发异常。
RESTRICT：该选项表示不能删除非空数据库，并在默认情况下启用。
CASCADE：该选项表示删除数据库中所有关联的表和函数。

二，创建数据表

表有两种作用域：全局和本地，全局

最低0.47元/天解锁文章

悦光阴

关注

0
点赞
踩
8

收藏

觉得还不错? 一键收藏
打赏
0
评论
Databricks 第6篇：Spark SQL 维护数据库和表

Spark SQL 表的命名方式是db_name.table_name，只有数据库名称和数据表名称。如果没有指定db_name而直接引用table_name，实际上是引用default 数据库下的表。在Spark SQL中，数据库只是指定表文件存储的路径，每个表都可以使用不同的文件格式来存储数据，从这个角度来看，可以把database看作是Databricks 表的上层目录，用于组织数据表及其文...
复制链接

扫一扫