- 博客(27)
- 收藏
- 关注
原创 使用Git就记这几个命令
使用Git就记这几个命令一、安装1.在Linux上安装Git如果用Debian或Ubuntu Linux,通过一条sudo apt-get install git就可以完成Git的安装。老一点的Debian或Ubuntu Linux,要把命令改为sudo apt-get install git-core。如果是其他Linux版本,可以直接通过源码安装。先从Git官网下载源码,然后解压,依次输入:./config,make,sudo make install这几个命令安装就好了。2.在Mac OS
2021-11-21 22:59:30
606
原创 Spring Boot 注解大合集
Spring Boot 注解大合集Lombok注解详解下安装lombok插件重启idea在maven库中添加依赖 <dependency> <groupId >org.projectlombok</groupId> <artifactId>lombok</artifactId> <version >1.16.10</version>
2021-02-15 16:23:54
565
原创 教你认识ElasticSearch
ElasticSearch1.什么是RestFulREST : 表现层状态转化(Representational State Transfer),如果一个架构符合REST原则,就称它为 RESTful 架构风格。资源: 所谓"资源",就是网络上的一个实体,或者说是网络上的一个具体信息表现层 :我们把"资源"具体呈现出来的形式,叫做它的"表现层"(Representation)。状态转化(...
2020-04-11 15:21:06
500
原创 Azkaban任务调度的使用和概况
Azkaban 任务调度官网地址:https://azkaban.github.io/概述Azkaban是由Linkedin公司推出的一个批量工作流任务调度器,主要用于在一个工作流内以一个特定的顺序运行一组工作和流程,它的配置是通过简单的key:value对的方式,通过配置中的dependencies 来设置依赖关系,这个依赖关系必须是无环的,否则会被视为无效的工作流。Azkaban使用jo...
2020-04-08 16:03:15
942
原创 Flink窗口
Flink窗口计算 / 流计算参考:https://ci.apache.org/projects/flink/flink-docs-release-1.9/dev/stream/operators/windows.html概述窗口计算是流计算的核心,通过窗口将一个无线的数据流在时间轴上切分成有限大小的数据集-bucket,然后在对切分后的数据做计算。Flink根据流的特点将窗口计算分为两大类...
2020-04-07 11:39:43
344
原创 Flink状态以及故障容错
State & Fault Tolerance参考资料:https://ci.apache.org/projects/flink/flink-docs-release-1.9/dev/stream/state/Flink状态使用Flink中常见的状态大致分为了两类:Keyed State和Operator State.Keyed State:Keyed State is alway...
2020-04-06 17:40:51
438
原创 Flink物理分区
Flink Physical partitioning(物理分区)Rebalancing (Round-robin partitioning) 默认策略轮询,会将数据轮询发送给下游任务val fsEnv = StreamExecutionEnvironment.getExecutionEnvironmentfsEnv.socketTextStream("HadoopNode00",9999...
2020-04-06 17:10:40
509
原创 Flink代码架构
Flink代码架构篇Quick Startmaven 依赖<dependencies> <dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-clients_2.11</artifactId> ...
2020-04-06 17:03:10
293
原创 Flink概况及搭建
Flink概况及搭建Flink发展史第一代大数据处理方案:2006年Hadoop的MapReduce-批/HDFS, 2014年9月份 apache Storm-流第二代大数据处理方案:2014年2 Spark RDD -批处理 ,DStream - 流 (批模拟流 )延迟高第三代大数据处理方案:2014年12 Flink DataStream-流,Dataset- 批 吞吐量高,低延迟特...
2020-04-06 15:58:23
323
1
原创 Linux的使用以及常用的命令
Linux的使用以及常用的命令概述Linux的历史操作系统,英语Operating System简称为OS。说道操作系统就需要先讲一讲Unix,UNIX操作系统,是一个强大的多用户、多任务操作系统,支持多种处理器架构,按照操作系统的分类,属于分时操作系统,最早由KenThompson、Dennis Ritchie和Douglas McIlroy于1969年在AT&T的贝尔实验室开发。...
2020-03-31 14:47:31
575
原创 Hadoop全部,秒变大神
Hadoop概况https://blog.csdn.net/u012926411/article/details/82756100Hadoop: 适合大数据的分布式存储和计算平台Hadoop不是指具体一个框架或者组件,它是Apache软件基金会下用Java语言开发的一个开源分布式计算平台。实现在大量计算机组成的集群中对海量数据进行分布式计算。适合大数据的分布式存储和计算平台。Hadoop...
2020-03-24 15:43:35
444
原创 ZooKeeper的全部,从小白到精通
ZooKeeper学习概述ZooKeeper是一个分布式应用所涉及的分布式的、开源的协调服务。是Google的Chubby的开源实现Zookeeper最早起源于雅虎的研究院的一个研究小组。在当时,研究人员发现,在雅虎内部很多大型的系统需要依赖一个类似的系统进行分布式协调,但是这些系统往往存在分布式单点问题。所以雅虎的开发人员就试图开发一个通用的无单点问题的分布式协调框架。在立项初期,考虑到...
2020-03-20 18:30:27
274
原创 Spark Structured Streaming
Spark Structured Streaming概述http://spark.apache.org/docs/latest/structured-streaming-programming-guide.htmlStructured Streaming构建在Spark SQL基础之上的一个可靠且容错的流数据处理引擎。简短来说,Structured Streaming提供快速、可靠、容错、...
2020-03-20 14:58:20
180
原创 Spark SQL学习和使用
Spark SQL学习和使用概述SQL:类似于Hive,数据仓库(Data WareHourse)工具,简化Spark应用开发http://spark.apache.org/docs/latest/sql-programming-guide.htmlSpark SQL是Spark中一个模块,用以对结构化数据进行处理。SparkSQL在RDD之上抽象出来Dataset/Dataframe 这...
2020-03-19 17:55:56
381
原创 Spark Streaming窗口
Spark Streaming窗口以上的图描述的是一个滑动(sliding)窗口:window size: 3个时间单位slide interval: 2个时间时间Tumbling(翻滚)窗口Sliding(滑动)窗口窗口操作函数countByWindow(windowLength, slideInterval)统计每一个窗口中,元素的个数// 必须设置检查点目录...
2020-03-19 11:13:28
210
原创 Spark Streaming算子操作
Spark算子操作转换算子类似于RDD,DStream允许进行相应的转换操作,并且大多数的转换操作类似于RDDimport org.apache.spark.SparkConfimport org.apache.spark.rdd.RDDimport org.apache.spark.streaming.{Seconds, StreamingContext}/** * spark...
2020-03-19 11:03:33
184
原创 Spark Streaming概述
Spark Streaming概述概述http://spark.apache.org/docs/latest/streaming-programming-guide.htmlSpark Streaming是Spark Core扩展(RDD),可以对实时流数据进行可靠、高吞吐、容错的流数据处理。① 构建数据源: Spark Streaming在计算时,输入数据(数据源Sources)可以有...
2020-03-19 10:51:32
170
原创 Spark Core之RDD原理和共享变量
Spark Core之RDD原理RDD(Resilent Distrutbed DataSet): 弹性分布式数据集,是Spark中最为核心的抽象,代表一个不可变,可分区,支持并行计算的数据集合。RDD的创建通过Scala(Seq)集合import org.apache.spark.{SparkConf, SparkContext}object CreateRDDWithCollect...
2020-03-18 16:22:35
183
原创 Spark架构
Spark架构MapReduceOnYarn(回顾)工作步骤第一步:在ClientNode上,初始化JVM容器(RunJar),运行MapReduce应用,然后实例化Job对象第二步:将Job对象,注册到Yarn集群的ResourceManager之上,返回一个ApplicationId第三步:将Job对象的资源(任务的jar、配置文件、计算的数据切片信息等)提交到一个共享的文件...
2020-03-18 15:20:04
153
原创 Spark安装
Spark安装概述Apache Spark™ is a unified analytics engine for large-scale data processing.Spark是一个使用大数据处理的统一分析引擎(计算)官网地址:http://spark.apache.org/Lightning-fast unified analytics engine (Spark快如闪电统一分析引...
2020-03-18 15:08:59
585
原创 HBase的架构
HBase的架构ZookeeperHBase通过zk来做Master的高可用,RegionServer的监控、元数据的入口以及集群配置的维护工作;具体如下:通过ZK保证集群中只有一个Master可用,在主的Master的出现异常后,会通过竞争机制产生新的Master通过ZK监控RegionServer的状态,当RegionServer有异常时,同时Master RegionServer上...
2020-03-14 17:42:58
163
原创 HBase的安装和使用
HBase的安装和使用概述HBase(Hadoop Database),是一个基于Google BigTable论文设计的高可靠性、高性能、可伸缩的分布式存储系统。CAPCAP原则又称CAP定理,指的是在一个分布式系统中,一致性(Consistency)、可用性(Availability)、分区容错性(Partition tolerance)。CAP 原则指的是,这三个要素最多只能同时实现...
2020-03-14 17:09:57
301
原创 Hive的安装和使用
hive的安装和使用概述由FaceBook开源用于解决海量结构化日志的数据统计工具。hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL语句转变成MapReduce任务来执行。Hive的优点是学习成本低,可以通...
2020-03-12 17:38:07
272
原创 Sqoop的安装和使用
Sqoop的安装和使用概述Sqoop是一款开源的数据导入导出工具,可以将传统的关系型数据库导出至HDFS,也可以将HDFS中的数据导出至关系型数据库。官网: http://sqoop.apache.org/原理:在Hadoop生态体系中,计算基本依赖于MR,那么Sqoop也是如此,Sqoop就是将Sqoop语句翻译成MR程序,来实现一个数据导入和导出的操作。那就不难理解到Sqoop就是一个...
2020-03-11 14:40:54
198
原创 Kafka的安装和使用
Kafka的安装和使用单节点模式[root@HadoopNode00 ~]# mkdir /home/kafka [root@HadoopNode00 ~]# tar -zxvf kafka_2.11-0.11.0.0.tgz -C /home/kafka/# /home/kafka/kafka_2.11-0.11.0.0/config/server.properties# Swit...
2020-03-11 13:34:37
203
原创 flume的安装和使用
Flume的安装使用和参数概述Flume是一个分布式的日志收集系统,可以处理各种类型各种数据格式的日志数据,包括avro、thrift、exec、jms、spooling directory、netcat、sequence generator、syslog、http、legacy、自定义等。组件功能Agent使用JVM 运行Flume。每台机器运行一个agent,但是可...
2020-03-11 12:35:09
206
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人