2020年04月_弗瑞得姆

原创 DStream操作之Window Operations(开窗函数)

什么是DStreamDiscretized Stream是Spark Streaming的基础抽象，代表持续性的数据流和经过各种Spark算子操作后的结果数据流。在内部实现上，DStream是一系列连续的RDD来表示。每个RDD含有一段时间间隔内的数据，如下图：对数据的操作也是按照RDD为单位来进行的 Spark Streaming使用数据源产生的数据流创建DStream，也可...

2020-04-20 08:44:48 754

原创 Spark Streaming原理篇

概述Spark Streaming类似于Apache Storm，用于流式数据的处理。根据其官方文档介绍，Spark Streaming有高吞吐量和容错能力强等特点。Spark Streaming支持的数据源有很多，例如：Kafka、Flume、Twitter、ZeroMQ和简单的TCP套接字等等。数据输入后可以用Spark的高度抽象操作如：map、reduce、join、window等进行运算...

2020-04-20 08:23:51 241

原创 spark中dataset、dataframe、和RDD的区别

DataFrameDataFrame的前身是SchemaRDD，从Spark 1.3.0开始SchemaRDD更名为DataFrame。与SchemaRDD的主要区别是：DataFrame不再直接继承自RDD，而是自己实现了RDD的绝大多数功能。你仍旧可以在DataFrame上调用rdd方法将其转换为一个RDD。在Spark中，DataFrame是一种以RDD为基础的分布式数据集，类似于传统数...

2020-04-20 07:57:41 629

原创 Spark SQL之DataFrame

Spark SQL是Spark用来处理结构化数据的一个模块，它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。相比于Spark RDD API，Spark SQL包含了对结构化数据和在其上运算的更多信息，Spark SQL使用这些信息进行了额外的优化，使对结构化数据的操作更加高效和方便。有多种方式去使用Spark SQL，包括SQL、DataFrames API...

2020-04-18 11:39:03 650

原创 RDD容错机制之checkpoint

什么是checkpoint（1）、Spark 在生产环境下经常会面临transformation的RDD非常多（例如一个Job中包含1万个RDD）或者具体transformation的RDD本身计算特别复杂或者耗时（例如计算时长超过1个小时），这个时候就要考虑对计算结果数据持久化保存；（2）、Spark是擅长多步骤迭代的，同时擅长基于Job的复用，这个时候如果能够对曾经计算的过程产生的数据进行...

2020-04-17 17:40:20 223

原创 Spark任务调度

任务调度流程图各个RDD之间存在着依赖关系，这些依赖关系就形成有向无环图DAG，DAGScheduler对这些依赖关系形成的DAG进行Stage划分，划分的规则很简单，从后往前回溯，遇到窄依赖加入本stage，遇见宽依赖进行Stage切分。完成了Stage的划分。DAGScheduler基于每个Stage生成TaskSet,并将TaskSet提交给TaskScheduler。TaskSched...

2020-04-17 17:34:21 134

原创 Spark计算模型之RDD

RDD概述什么是RDDRDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点：自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将数据缓存在内存中，后续的查询能够重用这些数据，这极大地提升了查询速度。Dataset：一个数据...

2020-04-17 17:29:50 702

原创 Spark概述和环境搭建

为什么学习SparkSpark是一个开源的类似于Hadoop MapReduce的通用的并行计算框架，Spark基于map reduce算法实现的分布式计算，拥有Hadoop MapReduce所具有的优点**；但不同于MapReduce的是**Spark中的Job中间输出和结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map redu...

2020-04-17 16:38:19 272

原创 Hbase高级应用

建表高级属性下面几个shell 命令在hbase操作中可以起到很到的作用，且主要体现在建表的过程中，看下面几个create 属性1、BLOOMFILTER 默认是Row布隆过滤可以每列族单独启用。使用 HColumnDescriptor.setBloomFilterType(NONE | ROW | ROWCOL) 对列族单独启用布隆。 Default = ROW 对行进行布隆过滤。...

2020-04-17 12:32:09 291

原创 HBase数据库介绍

介绍1.基于Google BigTable模型开发2.典型的key/value系统3.建立在hdfs之上4.提供高可靠性、高性能、列存储、可伸缩、实时读写nosql的数据库系统。5.Apache Hadoop生态系统中的重要一员，主要用于海量结构化和半结构化数据存储。6.介于nosql和（Relational Database Management System：RDBMS）关系型数据...

2020-04-17 11:33:52 479

原创 HBase内部原理

系统架构系统架构Client1 包含访问hbase的接口，client维护着一些cache来加快对hbase的访问，比如region的位置信息。Zookeeper1 保证任何时候，集群中只有一个master2 存贮所有Region的寻址入口----root表在哪台服务器上。3 实时监控Region Server的状态，将Region server的上线和下线信息实时通知给Maste...

2020-04-17 11:33:21 190

原创 HBse集群结构和集群搭建

HBase集群结构HBase基本组件说明：Client：包含访问Hbase的接口，并维护cache来加快对Hbase的访问，比如region的位置信息。HMaster：是HBase集群的主节点，可以配置多个用来实现HA为RegionServer分配region负责Region的负载均衡发现失效的RegionServer并重新分配其上的regionRegionServer：Re...

2020-04-17 10:01:25 438

aiyin9511的博客