sparkSQL rdd

本文介绍了Spark SQL如何与Hive集成,包括Hive表访问、UDF和HiveQL支持。讨论了DataFrame作为SchemaRDD的概念,强调了缓存策略和智能数据读取。还提到了DataSet的特性和Spark SQL中的聚合函数,以及与RDD的性能差异。最后,文章探讨了SparkSQL中的排名函数和数据写入MySQL。
摘要由CSDN通过智能技术生成

Apache Hive 是 Hadoop 上的 SQL 引擎,Spark SQL 编译时可以包含 Hive 支持,也可以
不包含。包含 Hive 支持的 Spark SQL 可以支持 Hive 表访问、UDF(用户自定义函数)、
SerDe(序列化格式和反序列化格式),以及 Hive 查询语言(HiveQL/HQL)
带有 Hive 支持的 Spark SQL 的 Maven 索引

groupId = org.apache.spark
artifactId = spark-hive_2.10
version = 1.2.0

DataFrame(SchemaRDD) 是一个由 Row 对象组成的 RDD,附带包含每列数据类型的结构信息。Row 对象只是对基本数据类型(如整型和字符串型等)的数组的封装。可以把任意 SchemaRDD 注册为临时表,这样就可以使用 HiveContext.sql 或 SQLContext.sql 来对它进行查询了。你可以通过 SchemaRDD 的 registerTempTable() 方法这么做。临时表是当前使用的 HiveContext 或 SQLContext 中的临时变量,在你的应用退出时这些临时表就不再存在了。

缓存
为了确保使用更节约内存的表示方式进行缓存而不是储存整个对象,应当使用专门的 hiveCtx.cacheTable(“tableName”) 方法。
读取和存储数据
当你使用SQL 查询这些数据源中的数据并且只用到了一部分字段时,Spark SQL 可以智能地只扫描这些用到的字段,而不是像 SparkContext.hadoopFile 中那样简单粗暴地扫描全部数据。

Spark 中使用 UDF
https://www.iteblog.com/archives/2038.

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值