databricks使用教程

Databricks

databricks是使用Apache Spark™的原始创建者提供的Databricks统一分析平台
它集成了Spark环境支持ScalapythonR语言进行开发。

databricks分商业版本社区版本,学生以及个人可以使用社区版本。社区版本只需要注册一下账号,则就会拥有一台配置为6G内存Spark集群环境
Spark初学者则不再为配置开发环境而烦恼·~~~~

接下来就展示一下注册&使用教程

选择社区版本填写一下注册信息然后就是邮件验证 以及手机号验证。这里就不截图了。

如何使用

登录后的主界面
集群创建方式
设置集群参数设置集群名称RoneDemo,Scala版本为2.10Spark版本为2.2.1,其它参数无伤大雅默认就好,最后就是直接点击上方的CreateCluster创建集群

稍等片刻集群便会搭建起来
创建完成后的集群信息

接下来我们导入文件数据并进行一些数据操作

导入准备好的数据文件
导入文件操作顺序选择上传文件2选择上传的文件3点击创建表表的默认指定的字段类型为String,我们可以更改其类型
设置表的参数创建完成后的表创建好的表在这里
最后就是编写Spark代码了
创建一个编辑本这里的Notebook和JPuterNoteBook、以及Zeppelin大同小异

val productsDF = spark.sql("select * from products_datasetss")
productsDF.show()

简单查询语句执行sparkSQL进行查询,(Ctrl + Enter 进行快速执行)其它的快捷键上面都有。
这种编辑器支持联想关键词,Tab键可以给你提示信息。

import org.apache.spark.sql.functions._
productsDF.groupBy("product_category_name").count().orderBy(desc("count")).show()

根据商品分类进行降序排序如果想进行其它语句直接编写执行就完事了,比如说统计共多少条数据etc

That’s All of This 谢谢观看

评论 9
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值