![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark
文章平均质量分 82
隔山观色
这个作者很懒,什么都没留下…
展开
-
Spark SQL基础使用
Spark SQL 是Spark用于结构化数据(structured data)处理的Spark模块Hive:基于Hadoop的SQL引擎工具,目的是为了简化MapReduce的开发,提高开发效率,可以把SQL转化成MapReduce程序(因为大数据统计用的是新的代码方式)Spark SQL 的前身是Shark,受Hive发展的制约Shark分为SparkSQL(兼容Hive)和Hive on Spark(计划将Spark作为Hive的底层引擎之一)SparkSQL为了简化RDD的开发写原创 2021-08-23 09:34:22 · 369 阅读 · 0 评论 -
Spark中RDD分区的源码分析
目录一、RDD分区的优势二、分区原理三、Hadoop切片机制一、RDD分区的优势Spark速度快的原因得益于它的RDD的数据处理方式,RDD有弹性、不可变、可分区、里面的元素可并行计算的特性。而RDD的并行计算是通过分区实现的,可以让计算更快。分区增加了RDD的容错,数据丢失或出现错误不会读取以整块数据,而只需重新读取出错的分区RDD的分区是Spark分布式的体现二、分区原理RDD为了提高并行计算的能力,提供了分区,把读取到的数据分为很多个区域,每个区域分发给一个原创 2021-08-16 14:41:31 · 331 阅读 · 0 评论