Databricks
databricks
是使用Apache Spark™
的原始创建者提供的Databricks统一分析平台
它集成了Spark环境支持Scala
、python
、R
语言进行开发。
databricks分商业版本和社区版本,学生以及个人可以使用社区版本。社区版本只需要注册一下账号,则就会拥有一台配置为6G内存的Spark集群环境。
Spark初学者则不再为配置开发环境而烦恼·~~~~
接下来就展示一下注册&使用教程
然后就是邮件验证 以及手机号验证。这里就不截图了。
如何使用
设置集群名称RoneDemo,Scala版本为2.10 、Spark版本为2.2.1,其它参数无伤大雅默认就好,最后就是直接点击上方的
CreateCluster
创建集群
稍等片刻集群便会搭建起来
接下来我们导入文件数据并进行一些数据操作
导入准备好的数据文件
表的默认指定的字段类型为
String
,我们可以更改其类型
最后就是编写Spark代码了
这里的Notebook和
JPuterNoteBook
、以及Zeppelin
大同小异
val productsDF = spark.sql("select * from products_datasetss")
productsDF.show()
执行sparkSQL进行查询,(Ctrl + Enter 进行快速执行)其它的快捷键上面都有。
这种编辑器支持联想关键词,Tab
键可以给你提示信息。
import org.apache.spark.sql.functions._
productsDF.groupBy("product_category_name").count().orderBy(desc("count")).show()
如果想进行其它语句直接编写执行就完事了,比如说统计共多少条数据etc
That’s All of This 谢谢观看