spark2.0版本之后的sparkSQL新特性

spark2.0之后的sparkSQL

1、spark2.0以后,我们操作的sql的对象为DataSet,
DataFrame只是DataSet[Row] (row是弱类型)
DataSet有弱类型(untyped)和强类型(typed)

2、SparkSession作为新版本的上下文,可以用在sql和streaming中,
SparkSession把SQLContext和HiveContext整合到了一起

3、spark2.0之前的sql是不支持开窗函数和子查询的,2.0之后实现了sql2003标准,开始支持了
如果在2.0之前需要实现开窗函数和子查询,需要用Hive-On-Spark来实现

4、spark2.0可以支持csv格式数据的输入和输出

5、spark sql生成的默认数据格式为parquet(列式存储)

5、DataSet[Row]—DataFrame是包含RDD+schema信息(用来描述数据的数据)

6、sparksql在编程的时候,可以用DSL语言风格或SQL语句风格来操作

7、DataSet和DataFrame之间可以互相转换,用as方法

8、sparksql在获取json数据时,里面的数值数据会解析成long类型

9、sparksql是无法对数据做增删改的,只能做查询

启用hive:
1、在配置信息时加入config(“spark.sql.warehouse.dir”, “d://spark-warehouse”)
2、在getOrCreate方法之前调用enableHiveSupport()方法启动hive支持

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值