![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据开发实践
文章平均质量分 73
宋哥哥丢了金箍棒
每个人都有梦想,或大或小,让我们努力实现它吧。
展开
-
Spark SQL简介及实践
一、Spark SQL概述 1、Spark SQL是spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。 2、在学习Hive的过程中,我们了解到它是将Hive SQL 转换成MapReduce然后提交到集群上执行,大大简化了编写MapReduce的程序的复杂性,由于MapReduce计算过程中大量的中间磁盘落地过程消耗了大量原创 2018-01-02 14:12:25 · 618 阅读 · 0 评论 -
Spark RDD概述及实践
一、RDD概述1.1.什么是RDD RDD(Resilient Distributed Dataset) 叫做分布式数据集,是Spark中最基础的数据抽象,它代表一个不可变,可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显示的将工作集缓存在内存中,后续的查询能够重用工作集,这极大提升查询的速度。1.2.RDD的原创 2018-01-03 18:23:50 · 546 阅读 · 0 评论 -
spark伪分布式搭建及spark页面8080端口访问出错的问题
伪分布式搭建其实很简单(spark集群搭建都很简单)1、首先到官网下载spark压缩包2、下载 命令行中使用:wget http://mirror.bit.edu.cn/apache/spark/spark-2.2.1/spark-2.2.1-bin-hadoop2.7.tgz3、解压 tar -zxvf spark-2.2.1-bin-hadoop2.7.tgz4、修改配置文件原创 2017-12-28 18:51:49 · 23221 阅读 · 1 评论