databricks使用教程

最新推荐文章于 2025-03-07 21:30:54 发布

Rone-X

最新推荐文章于 2025-03-07 21:30:54 发布

阅读量2.5w

点赞数 19

分类专栏： Spark 文章标签： Spark databricks 大数据

本文链接：https://blog.csdn.net/RONE321/article/details/90413306

版权

Spark 专栏收录该内容

18 篇文章

订阅专栏

本文介绍了Databricks统一分析平台，它集成了Spark环境支持多种语言开发，有商业和社区版本，学生和个人可用社区版获取Spark集群环境。还展示了注册使用教程，包括设置集群、导入数据、更改字段类型，最后介绍了编写Spark代码及执行sparkSQL查询等操作。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Databricks

databricks是使用Apache Spark™的原始创建者提供的Databricks统一分析平台
它集成了Spark环境支持Scala、python、R语言进行开发。

databricks分商业版本和社区版本，学生以及个人可以使用社区版本。社区版本只需要注册一下账号，则就会拥有一台配置为6G内存的Spark集群环境。
Spark初学者则不再为配置开发环境而烦恼·~~~~

接下来就展示一下注册&使用教程

选择社区版本填写一下注册信息然后就是邮件验证 以及手机号验证。这里就不截图了。

如何使用

登录后的主界面
集群创建方式
设置集群参数设置集群名称RoneDemo,Scala版本为2.10 、Spark版本为2.2.1，其它参数无伤大雅默认就好，最后就是直接点击上方的CreateCluster创建集群

稍等片刻集群便会搭建起来
创建完成后的集群信息

接下来我们导入文件数据并进行一些数据操作

导入准备好的数据文件
导入文件操作顺序选择上传文件2 选择上传的文件3 点击创建表表的默认指定的字段类型为String，我们可以更改其类型
设置表的参数创建完成后的表创建好的表在这里
最后就是编写Spark代码了
创建一个编辑本这里的Notebook和JPuterNoteBook、以及Zeppelin大同小异

val productsDF = spark.sql("select * from products_datasetss")
productsDF.show()

简单查询语句执行sparkSQL进行查询，（Ctrl + Enter 进行快速执行）其它的快捷键上面都有。
这种编辑器支持联想关键词，Tab键可以给你提示信息。

import org.apache.spark.sql.functions._
productsDF.groupBy("product_category_name").count().orderBy(desc("count")).show()

根据商品分类进行降序排序如果想进行其它语句直接编写执行就完事了，比如说统计共多少条数据etc

That’s All of This 谢谢观看