![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
SparkSQL
囧芝麻
简简单单的陪伴,平平淡淡的幸福
展开
-
60分钟内从零起步驾驭Hive实战学习笔记
SparkSQL前身是Shark,Shark强烈依赖于Hive。Spark原来没有做SQL多维度数据查询工具,后来开发了Shark,Shark依赖于Hive的解释引擎,部分在Spark中运行,还有一部分在Hadoop中运行。所以讲SparkSQL必须讲Hive。一.Hive的本质:Hive是分布式数据仓库,同时又是查询引擎,所以SparkSQL取代的只是Hives的查询引擎,在企业实际生产环境下,原创 2017-06-08 14:49:16 · 1336 阅读 · 0 评论 -
Spark SQL和DataFrame的本质
1, Spark SQL和DataFrame(DataSet,还没有深度去使用)2, DataFrame与RDD3, 企业级最佳实践一:Spark SQL和DataFrame1, Spark SQL是除了Spark Core以外最大的和最受关注的组件。a) 其更加强大,可以操作各种数据来源和各种格式的数据;用户可以扩展Spark SQL的功能来支持更多类型的数据(例如Kudu)。b原创 2017-06-08 14:52:36 · 684 阅读 · 0 评论 -
SparkSQL on Hive配置与实战
首先要配置好hive,保存元数据到mysql中,这个大家自己查资料!然后配置Spark SQL, 1.配置hive-site.xml 在master1上的/usr/local/spark/spark-1.6.0-bin-hadoop2.6/conf目录创建hive-site.xml文件,内容如下: <configuration> <property> <name>hive.m原创 2017-06-08 23:19:32 · 543 阅读 · 0 评论 -
使用Java和Scala在IDE中开发DataFrame
Java版本代码如下:import org.apache.spark.SparkConf;import org.apache.spark.SparkContext;import org.apache.spark.sql.DataFrame;import org.apache.spark.sql.SQLContext;/** * 使用Java的方式实战对DataFrame的操作 */pub原创 2017-06-09 02:07:31 · 483 阅读 · 0 评论 -
使用Java和Scala在IDE中实战RDD和DataFrame转换操作
一. RDD与DataFrame转换的重大意义在Spark中RDD可以直接转换成DataFrame。SparkCore的核心是RDD,所有的调度都是基于RDD完成的,对RDD的操作都可以转换成基于DataFrame使用SparkSQL来操作。RDD可能接上数据库,接上NoSQL,其他文件系统等各种数据来源,然后将数据转换为DataFrame,极大简化了大数据的开发,原来写Scala\Java,现在只原创 2017-06-09 17:05:28 · 743 阅读 · 0 评论 -
使用Java和Scala在IDE中实战RDD和DataFrame动态转换操作
什么是非动态转换?=> 提前已经知道了RDD具体数据的元数据信息,可以通过JavaBean或Case Class的方式提前创建DataFrame时,通过反射的方式获得元数据信息。什么是动态转换?=> 无法提前知道具体的RDD每个Record的列的个数及每列的类型只有在运行时才能知道。这种情况在生产环境下更常见。因为在生产环境下提前知道数据的元数据信息的可能性不大。另外,生产环境下业务会变化,业务变化原创 2017-06-09 21:47:29 · 988 阅读 · 0 评论 -
SparkSQL下Parquet中PushDown的实现
Hive中也有PushDown。PushDown可以极大减少数据输入,极大的提高处理效率。SparkSQL实现了PushDown,在Parquet文件中实现PushDown具有很重要的意义。PushDown是一种SQL优化方式,通常用在查询。应用场景:假设通过DataFrame,df.select(a,b,c).filter(by a).filter(by b).select(c).filter(b原创 2017-06-09 23:34:20 · 1647 阅读 · 0 评论 -
Spark SQL下的Parquet使用最佳实践和代码实战
一:Spark SQL下的Parquet使用最佳实践1,过去整个业界对大数据的分析的技术栈的Pipeline一般分为一下两种方式:A)Data Source -> HDFS -> MR/Hive/Spark(相当于ETL) -> HDFS Parquet -> SparkSQL/impala -> Result Service(可以放在DB中,也有可能被通过JDBC/ODBC来作为数据服务使用);B原创 2017-06-10 00:03:08 · 575 阅读 · 0 评论 -
Spark SQL下Parquet内幕深度解密
一.SparkSQL下的Parquet意义再思考Twitter用Parquet节省了70%存储费用。如果HDFS是大数据时代分布式文件系统存储的事实标准的话,Parquet则是整个大数据时代文件存储格式的事实标准速度更快:从使用SparkSQL操作普通文件CSV和Parquet文件的速度对比上来看,绝大多数情况下,使用Parquet会比使用CSV等普通文件速度提升10倍左右(在一些变通文件系统无原创 2017-06-10 00:12:22 · 804 阅读 · 0 评论