![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
小强的进阶之路
这个作者很懒,什么都没留下…
展开
-
解决A master URL must be set in your configuration
win7环境 idea spark 对应pmo文件 <properties> <spark.version>2.0.2</spark.version> <scala.version>2.11</scala.version> &原创 2018-06-21 10:12:31 · 614 阅读 · 0 评论 -
spark资源调优
spark资源调优 所谓的Spark资源参数调优,其实主要就是对Spark运行过程中各个使用资源的地方,通过调节各种参数,来优化资源使用的效率,从而提升Spark作业的执行性能。以下参数就是Spark中主要的资源参数,每个参数都对应着作业运行原理中的某个部分,我们同时也给出了一个调优的参考值。 class 作业的主类 master 因为 MapReduce 使用 Yarn 的模式,所以这里只...原创 2018-11-27 16:19:37 · 157 阅读 · 0 评论 -
《从0到1学习Spark》-- 初识Spark SQL
Spark SQL是整个Spark生态系统中最常用的组件 今天小强给大家介绍Spark SQL,小强的平时的开发中会经常使用Spark SQL进行数据分析查询操作,Spark SQL是整个Spark生态系统中最常用的组件。这也是为什么很多大公司使用Spark SQL作为大数据分析的关键组件之一。 为什么引入Spark SQL 在Spark的早起版本,为了解决Hive查询在性能方面遇到的挑战,在...原创 2019-01-26 13:19:02 · 449 阅读 · 0 评论 -
《从0到1学习Spark》--DataFrame和Dataset探秘
昨天小强带着大家了解了Spark SQL的由来、Spark SQL的架构和SparkSQL四大组件:Spark SQL、DataSource Api、DataFrame Api和Dataset Api。今天小强和大家一起揭开Spark SQL背后DataFrame和Dataset的面纱。 DataFrame和Dataset演变 Spark要对闭包进行计算、将其序列化,并将她们发送到执行进程,这意味...原创 2019-01-30 16:41:05 · 153 阅读 · 0 评论