自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 DStream操作之Window Operations(开窗函数)

什么是DStreamDiscretized Stream是Spark Streaming的基础抽象,代表持续性的数据流和经过各种Spark算子操作后的结果数据流。在内部实现上,DStream是一系列连续的RDD来表示。每个RDD含有一段时间间隔内的数据,如下图:对数据的操作也是按照RDD为单位来进行的 Spark Streaming使用数据源产生的数据流创建DStream,也可...

2020-04-20 08:44:48 754

原创 Spark Streaming原理篇

概述Spark Streaming类似于Apache Storm,用于流式数据的处理。根据其官方文档介绍,Spark Streaming有高吞吐量和容错能力强等特点。Spark Streaming支持的数据源有很多,例如:Kafka、Flume、Twitter、ZeroMQ和简单的TCP套接字等等。数据输入后可以用Spark的高度抽象操作如:map、reduce、join、window等进行运算...

2020-04-20 08:23:51 241

原创 spark中dataset、dataframe、和RDD的区别

DataFrameDataFrame的前身是SchemaRDD,从Spark 1.3.0开始SchemaRDD更名为DataFrame。与SchemaRDD的主要区别是:DataFrame不再直接继承自RDD,而是自己实现了RDD的绝大多数功能。你仍旧可以在DataFrame上调用rdd方法将其转换为一个RDD。在Spark中,DataFrame是一种以RDD为基础的分布式数据集,类似于传统数...

2020-04-20 07:57:41 629

原创 Spark SQL之DataFrame

Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。相比于Spark RDD API,Spark SQL包含了对结构化数据和在其上运算的更多信息,Spark SQL使用这些信息进行了额外的优化,使对结构化数据的操作更加高效和方便。有多种方式去使用Spark SQL,包括SQL、DataFrames API...

2020-04-18 11:39:03 650

原创 RDD容错机制之checkpoint

什么是checkpoint(1)、Spark 在生产环境下经常会面临transformation的RDD非常多(例如一个Job中包含1万个RDD)或者具体transformation的RDD本身计算特别复杂或者耗时(例如计算时长超过1个小时),这个时候就要考虑对计算结果数据持久化保存;(2)、Spark是擅长多步骤迭代的,同时擅长基于Job的复用,这个时候如果能够对曾经计算的过程产生的数据进行...

2020-04-17 17:40:20 223

原创 Spark任务调度

任务调度流程图各个RDD之间存在着依赖关系,这些依赖关系就形成有向无环图DAG,DAGScheduler对这些依赖关系形成的DAG进行Stage划分,划分的规则很简单,从后往前回溯,遇到窄依赖加入本stage,遇见宽依赖进行Stage切分。完成了Stage的划分。DAGScheduler基于每个Stage生成TaskSet,并将TaskSet提交给TaskScheduler。TaskSched...

2020-04-17 17:34:21 134

原创 Spark计算模型之RDD

RDD概述什么是RDDRDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将数据缓存在内存中,后续的查询能够重用这些数据,这极大地提升了查询速度。Dataset:一个数据...

2020-04-17 17:29:50 702

原创 Spark概述和环境搭建

为什么学习SparkSpark是一个开源的类似于Hadoop MapReduce的通用的并行计算框架,Spark基于map reduce算法实现的分布式计算,拥有Hadoop MapReduce所具有的优点**;但不同于MapReduce的是**Spark中的Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map redu...

2020-04-17 16:38:19 272

原创 Hbase高级应用

建表高级属性下面几个shell 命令在hbase操作中可以起到很到的作用,且主要体现在建表的过程中,看下面几个create 属性1、BLOOMFILTER 默认是Row布隆过滤可以每列族单独启用。使用 HColumnDescriptor.setBloomFilterType(NONE | ROW | ROWCOL) 对列族单独启用布隆。 Default = ROW 对行进行布隆过滤。...

2020-04-17 12:32:09 291

原创 HBase数据库介绍

介绍1.基于Google BigTable模型开发2.典型的key/value系统3.建立在hdfs之上4.提供高可靠性、高性能、列存储、可伸缩、实时读写nosql的数据库系统。5.Apache Hadoop生态系统中的重要一员,主要用于海量结构化和半结构化数据存储。6.介于nosql和(Relational Database Management System:RDBMS)关系型数据...

2020-04-17 11:33:52 479

原创 HBase内部原理

系统架构系统架构Client1 包含访问hbase的接口,client维护着一些cache来加快对hbase的访问,比如region的位置信息。Zookeeper1 保证任何时候,集群中只有一个master2 存贮所有Region的寻址入口----root表在哪台服务器上。3 实时监控Region Server的状态,将Region server的上线和下线信息实时通知给Maste...

2020-04-17 11:33:21 190

原创 HBse集群结构和集群搭建

HBase集群结构HBase基本组件说明:Client:包含访问Hbase的接口,并维护cache来加快对Hbase的访问,比如region的位置信息。HMaster:是HBase集群的主节点,可以配置多个用来实现HA为RegionServer分配region负责Region的负载均衡发现失效的RegionServer并重新分配其上的regionRegionServer:Re...

2020-04-17 10:01:25 438

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除