spark
文章平均质量分 95
spark是基于内存的快速、通用、可扩展的大数据分析计算引擎。它的计算速度非常快。但是仅仅只涉及到数据的计算,并没有涉及到数据的存储。
被数据处理的蜗牛
这个作者很懒,什么都没留下…
展开
-
08-Hbase
08-HBase 1.目标概述 了解HBase基本概念 了解HBase架构 掌握HBase集群环境搭建 掌握HBase中shell操作 掌握HBase中java API操作 掌握rowKey的设计原则 【延伸】MapReduce操作HBase 【延伸】spark操作HBase 2.HBase基础 2.1.基本概念 2.1.1.介绍 官网地址:http://hbase.apache.org/ HBase在Hadoop之上提供了类似于Bigtable的能力,是BigTable的开源实现版本,通过java编程原创 2022-03-22 16:48:12 · 3046 阅读 · 0 评论 -
07-SparkStreaming
07-Spark Streaming 1.目标 掌握spark Streaming的原理和架构 掌握DStream的相关操作 实现spark Streaming与flume整合 实现spark Streaming与kafaka整合 2.spark Streaming介绍 2.1.什么是spark Streaming spark Streaming类似于Apache Storm,用于流式数据处理。根据官方文档介绍,spark Streaming有高吞吐量和容错能力强等特点。 spark S原创 2022-03-22 16:11:36 · 2240 阅读 · 0 评论 -
06-SparkSQL
1.spark sql 1.1.spark sql概述 官网地址:http://spark.apache.org/sql/ 1.1.1.什么是spark sql spark sql是spark用来处理结构化数据的一个模块,它提供了一个编程抽象DataFrame,作为分布式SQL查询的引擎,它是将spark sql转换成RDD,然后提交到集群中去运行,执行效率非常快。支持多种使用方式:SQL、DataFrame API、DataSet API。 相比于spark RDD API,spark sql包含了对结原创 2022-03-18 10:58:25 · 4075 阅读 · 0 评论 -
05-SparkRDD原理和编程接口
1.弹性分布式数据集RDD 1.1.RDD概述 1.1.1.什么是RDD RDD(Resilient Distributed DataSet)弹性分布式数据集。是spark中最基本的数据抽象,是一个不可变的、可分区的、可并行计算的集合。 Resilient:数据可以选择性的存储在内存中,或者磁盘中 Distributed:分布式存储、分布式计算 DataSet:用于存放数据的数据集合 1.1.2.RDD的属性 A list of partitions:分区列表,数据集基本组成单位 说明:每个分区对应一个原创 2022-03-18 10:16:25 · 737 阅读 · 0 评论 -
04-Spark入门
04-Spark入 熟悉spark相关概念 搭建spark集群 编写简单的spark应用程序 2.spark概述 2.1.什么是spark spark是基于内存的快速、通用、可扩展的大数据分析计算引擎。它的计算速度非常快。但是仅仅只涉及到数据的计算,并没有涉及到数据的存储。 2.2.为什么要学习spark 运行速度比mapred uce快很多 2.3.spark特点 速度快(比mapreduce在内存中快100倍,在磁盘中快10倍) spark中的job中间结果可以不落地,原创 2022-03-01 21:02:36 · 1923 阅读 · 0 评论