Hadoop
Super_Whw
这个作者很懒,什么都没留下…
展开
-
Spark——3SparkSQL
文章目录Spark SQL 简介Spark SQL 设计DataFrame与RDD的区别创建DataFrame从RDD转换得到DataFrame利用反射机制推断RDD模式使用编程方式定义RDD模式Spark SQL 简介Spark SQL是Spark生态系统中非常重要的组件,其前身为Shark。Shark是Spark上的数据仓库,最初设计成与Hive兼容,但是该项目于2014年开始停止开发,转向Spark SQL。Spark SQL全面继承了Shark,并进行了优化。Spark SQL 设计Dat转载 2020-07-28 10:25:44 · 110 阅读 · 0 评论 -
Spark——2RDD编程基础
文章目录RDD编程RDD创建RDD操作转换操作行动操作键值对RDD创建键值对RDD常用键值对转换操作一个综合实例RDD编程RDD创建两种方式从文件系统中加载数据创建RDD>>> lines = sc.textFile("hdfs://localhost:9000/user/hadoop/word.txt")>>> lines = sc.textFile("/user/hadoop/word.txt")>>> lines = sc.tex转载 2020-07-27 17:07:08 · 116 阅读 · 0 评论 -
Spark——1简介、运行架构、RDD
文章目录Spark简介特点Spark生态Spark运行架构基本概念架构设计Spark运行基本流程RDD的设计与运行原理RDD设计背景RDD概念RDD特性RDD之间的依赖关系阶段划分RDD运行过程Spark简介Spark最初由美国加州伯克利大学(UCBerkeley)的AMP(Algorithms, Machines and People)实验室于2009年开发,是基于内存计算的大数据并行计算框架,可用于构建大型的、低延迟的数据分析应用程序。Spark在诞生之初属于研究性项目,其诸多核心理念均源自学术研究转载 2020-07-27 15:19:04 · 154 阅读 · 0 评论 -
Hadoop生态
目录Hadoop的发展历史Hadoop的整体框架Hadoop 核心设计HDFS基础架构读写操作MapReduce参考Hadoop的发展历史说到Hadoop的起源,不得不说到一个传奇的IT公司—全球IT技术的引领者Google。Google(自称)为云计算概念的提出者,在自身多年的搜索引擎业务中构建了突破性的GFS(Google File System),从此文件系统进入分布式时代。除此之外,Google在GFS上如何快速分析和处理数据方面开创了MapReduce并行计算框架,让以往的高端服务器计算变为原创 2020-07-20 16:59:45 · 174 阅读 · 0 评论