Spark
猫君之上
一起学习大数据开发,共同进步
展开
-
SparkSQL 入门简介
1.SparkSQL概述SparkSQL的前身是Shark,它的底层依赖于Hive,因此其发展受制于Hive的发展,后来项目组将Shark废弃,保留了其中非常优秀的特点:比如内存存储技术,动态字节码技术等,重新组织了一个项目,这个项目就是SparkSQL,通过Spark去操作Hive,即Spark-on-Hive,同时在hive里面也推出了一个子模块,是hive的计算引擎基于spark,即hiv...原创 2019-04-29 19:11:01 · 472 阅读 · 0 评论 -
SparkSQL DataFrame和Dataset基本操作
1.正常打印输出1)创建SparkSessionval spark=SparkSession.builder().appName("dfdemo") .master("local[*]") .getOrCreate()2)准备创建RDDval personList: List[Person] = List( Person("1", "jack", 22),...原创 2019-04-29 21:08:50 · 746 阅读 · 0 评论 -
Spark SparkSQL的数据加载和落地
1.数据的加载使用read.load(path)默认加载的是parquet格式的文件,如果需要加载其他类型的文件,需要通过format(类型)指定。当然,spark对一些主要格式的文件的加载都提供了更加简洁的API操作方式加载json格式文件----要求文件的格式统一spark.read.format("csv").load("file:///C:\\Users\\mycat\\D...原创 2019-04-30 09:03:02 · 1120 阅读 · 0 评论