使用Git就记这几个命令 使用Git就记这几个命令一、安装1.在Linux上安装Git如果用Debian或Ubuntu Linux,通过一条sudo apt-get install git就可以完成Git的安装。老一点的Debian或Ubuntu Linux,要把命令改为sudo apt-get install git-core。如果是其他Linux版本,可以直接通过源码安装。先从Git官网下载源码,然后解压,依次输入:./config,make,sudo make install这几个命令安装就好了。2.在Mac OS
Spring Boot 注解大合集 Spring Boot 注解大合集Lombok注解详解下安装lombok插件重启idea在maven库中添加依赖 <dependency> <groupId >org.projectlombok</groupId> <artifactId>lombok</artifactId> <version >1.16.10</version>
教你认识ElasticSearch ElasticSearch1.什么是RestFulREST : 表现层状态转化(Representational State Transfer),如果一个架构符合REST原则,就称它为 RESTful 架构风格。资源: 所谓"资源",就是网络上的一个实体,或者说是网络上的一个具体信息表现层 :我们把"资源"具体呈现出来的形式,叫做它的"表现层"(Representation)。状态转化(...
Azkaban任务调度的使用和概况 Azkaban 任务调度官网地址:https://azkaban.github.io/概述Azkaban是由Linkedin公司推出的一个批量工作流任务调度器,主要用于在一个工作流内以一个特定的顺序运行一组工作和流程,它的配置是通过简单的key:value对的方式,通过配置中的dependencies 来设置依赖关系,这个依赖关系必须是无环的,否则会被视为无效的工作流。Azkaban使用jo...
Flink窗口 Flink窗口计算 / 流计算参考:https://ci.apache.org/projects/flink/flink-docs-release-1.9/dev/stream/operators/windows.html概述窗口计算是流计算的核心,通过窗口将一个无线的数据流在时间轴上切分成有限大小的数据集-bucket,然后在对切分后的数据做计算。Flink根据流的特点将窗口计算分为两大类...
Flink状态以及故障容错 State & Fault Tolerance参考资料:https://ci.apache.org/projects/flink/flink-docs-release-1.9/dev/stream/state/Flink状态使用Flink中常见的状态大致分为了两类:Keyed State和Operator State.Keyed State:Keyed State is alway...
Flink物理分区 Flink Physical partitioning(物理分区)Rebalancing (Round-robin partitioning) 默认策略轮询,会将数据轮询发送给下游任务val fsEnv = StreamExecutionEnvironment.getExecutionEnvironmentfsEnv.socketTextStream("HadoopNode00",9999...
Flink代码架构 Flink代码架构篇Quick Startmaven 依赖<dependencies> <dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-clients_2.11</artifactId> ...
Flink概况及搭建 Flink概况及搭建Flink发展史第一代大数据处理方案:2006年Hadoop的MapReduce-批/HDFS, 2014年9月份 apache Storm-流第二代大数据处理方案:2014年2 Spark RDD -批处理 ,DStream - 流 (批模拟流 )延迟高第三代大数据处理方案:2014年12 Flink DataStream-流,Dataset- 批 吞吐量高,低延迟特...
Linux的使用以及常用的命令 Linux的使用以及常用的命令概述Linux的历史操作系统,英语Operating System简称为OS。说道操作系统就需要先讲一讲Unix,UNIX操作系统,是一个强大的多用户、多任务操作系统,支持多种处理器架构,按照操作系统的分类,属于分时操作系统,最早由KenThompson、Dennis Ritchie和Douglas McIlroy于1969年在AT&T的贝尔实验室开发。...
Hadoop全部,秒变大神 Hadoop概况https://blog.csdn.net/u012926411/article/details/82756100Hadoop: 适合大数据的分布式存储和计算平台Hadoop不是指具体一个框架或者组件,它是Apache软件基金会下用Java语言开发的一个开源分布式计算平台。实现在大量计算机组成的集群中对海量数据进行分布式计算。适合大数据的分布式存储和计算平台。Hadoop...
ZooKeeper的全部,从小白到精通 ZooKeeper学习概述ZooKeeper是一个分布式应用所涉及的分布式的、开源的协调服务。是Google的Chubby的开源实现Zookeeper最早起源于雅虎的研究院的一个研究小组。在当时,研究人员发现,在雅虎内部很多大型的系统需要依赖一个类似的系统进行分布式协调,但是这些系统往往存在分布式单点问题。所以雅虎的开发人员就试图开发一个通用的无单点问题的分布式协调框架。在立项初期,考虑到...
Spark Structured Streaming Spark Structured Streaming概述http://spark.apache.org/docs/latest/structured-streaming-programming-guide.htmlStructured Streaming构建在Spark SQL基础之上的一个可靠且容错的流数据处理引擎。简短来说,Structured Streaming提供快速、可靠、容错、...
Spark SQL学习和使用 Spark SQL学习和使用概述SQL:类似于Hive,数据仓库(Data WareHourse)工具,简化Spark应用开发http://spark.apache.org/docs/latest/sql-programming-guide.htmlSpark SQL是Spark中一个模块,用以对结构化数据进行处理。SparkSQL在RDD之上抽象出来Dataset/Dataframe 这...
Spark Streaming窗口 Spark Streaming窗口以上的图描述的是一个滑动(sliding)窗口:window size: 3个时间单位slide interval: 2个时间时间Tumbling(翻滚)窗口Sliding(滑动)窗口窗口操作函数countByWindow(windowLength, slideInterval)统计每一个窗口中,元素的个数// 必须设置检查点目录...
Spark Streaming算子操作 Spark算子操作转换算子类似于RDD,DStream允许进行相应的转换操作,并且大多数的转换操作类似于RDDimport org.apache.spark.SparkConfimport org.apache.spark.rdd.RDDimport org.apache.spark.streaming.{Seconds, StreamingContext}/** * spark...
Spark Streaming概述 Spark Streaming概述概述http://spark.apache.org/docs/latest/streaming-programming-guide.htmlSpark Streaming是Spark Core扩展(RDD),可以对实时流数据进行可靠、高吞吐、容错的流数据处理。① 构建数据源: Spark Streaming在计算时,输入数据(数据源Sources)可以有...
Spark Core之RDD原理和共享变量 Spark Core之RDD原理RDD(Resilent Distrutbed DataSet): 弹性分布式数据集,是Spark中最为核心的抽象,代表一个不可变,可分区,支持并行计算的数据集合。RDD的创建通过Scala(Seq)集合import org.apache.spark.{SparkConf, SparkContext}object CreateRDDWithCollect...
Spark架构 Spark架构MapReduceOnYarn(回顾)工作步骤第一步:在ClientNode上,初始化JVM容器(RunJar),运行MapReduce应用,然后实例化Job对象第二步:将Job对象,注册到Yarn集群的ResourceManager之上,返回一个ApplicationId第三步:将Job对象的资源(任务的jar、配置文件、计算的数据切片信息等)提交到一个共享的文件...