![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark-Sql
XiaoGuang-Xu
主要从事hadoop Spark,兴趣爱好:数据挖掘和机器学方向
展开
-
Spark SQL和DataFrame的学习总结
1、DataFrame 一个以命名列组织的分布式数据集。概念上相当于关系数据库中一张表或在R / Python中的data frame数据结构,但DataFrame有丰富的优化。在Spark 1.3之前,核心的新类型为RDD-schemaRDD,现改为DataFrame。spark 通过DataFrame操作大量的数据源,包括外部文件(如 json、avro、parquet、seque转载 2016-12-20 17:00:28 · 438 阅读 · 0 评论 -
Spark SQL性能优化
Spark SQL性能优化性能优化参数 针对Spark SQL 性能调优参数如下: 代码示例 import java.util.List;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaSparkContext;import org.apache.spark.sql.a转载 2016-05-13 14:43:18 · 729 阅读 · 0 评论 -
SparkSQL的原理以及架构
SparkSQL的原理以及架构1、SparkSQL的发展历程1.1 Hive and SharkSparkSQL的前身是Shark,给熟悉RDBMS但又不理解MapReduce的技术人员提供快速上手的工具,Hive应运而生,它是当时唯一运行在Hadoop上的SQL-on-hadoop工具。但是MapReduce计算过程中大量的中间磁盘落地过程消耗了大量的I/O,转载 2017-07-08 10:44:53 · 1020 阅读 · 0 评论