<>=-CSDN博客

转载 scala

Scalahttps://www.scala-lang.org/一、概述Scala是一门多范式的编程语言，一种类似java的编程语言 [1] ，设计初衷是实现可伸缩的语言 [2] 、并集成面向对象编程和函数式编程的各种特性。为什么要学习scala编程语言？大数据开发工程师参与大数据领域中的多项开源项目都是scala编写，如：kafka、spark、flink等下一代，可以替换JA...

2020-01-19 15:10:16 351 1

转载版本控制工具-Git

版本控制工具-Git一、概述学习资料： https://git-scm.com/book/zh/v2什么是版本控制系统？版本控制软件提供完备的版本管理功能，用于存储、追踪目录（文件夹）和文件的修改历史，是软件开发者的必备工具，是软件公司的基础设施。版本控制软件的最高目标，是支持软件公司的配置管理活动，追踪多个版本的开发和维护活动，及时发布软件。一句话总结：版本控制是一种记录一个或若干...

2020-01-19 15:09:59 376

文件系统概述分布式文件系统（Distributed File System）是指文件系统管理的物理存储资源不一定直接连接在本地节点上，而是通过计算机网络与节点相连。计算机通过文件系统管理、存储数据，而信息爆炸时代中人们可以获取的数据成指数倍的增长，单纯通过增加硬盘个数来扩展计算机文件系统的存储容量的方式，在容量大小、容量增长速度、数据备份、数据安全等方面的表现都差强人意。分布式文件系统可以有效...

2020-01-19 15:09:22 370

转载 Apache Flume （完整篇）

概述Flume是一种分布式，可靠且可用的服务，用于有效地收集，聚合和移动大量日志数据。Flume构建在日志流之上一个简单灵活的架构。它具有可靠的可靠性机制和许多故障转移和恢复机制，具有强大的容错性。使用Flume这套架构实现对日志流数据的实时在线分析。Flume支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力。当前Fl...

2020-01-19 15:09:18 426

转载 Spark Yarn_Standalone

环境搭建Hadoop环境设置CentOS进程数和文件数(重启生效)[root@CentOS ~]# vi /etc/security/limits.conf* soft nofile 204800* hard nofile 204800* soft nproc 204800* hard nproc 204800优化linux性能，可能修改这个最大值配置主机名(重启生...

2020-01-19 15:08:55 120

转载 Apache Flink Stream API之State & Fault Tolerance（章节四）

作者：jiangzz 电话：15652034180 微信：jiangzz_wx 微信公众账号：jiangzz_wyState & Fault Tolerance针对于流处理的有状态function和operators可以存储流计算过程中的每个Event的计算状态。状态计算是构建精确操作不会或缺的板块。Flink需要获知计算节点的状态，从而使用checkpoint和savepoint机制...

2020-01-19 15:08:24 236

转载 Apache Flink DataStream API之Transformation(章节三)

作者：jiangzz 电话：15652034180 微信：jiangzz_wx 微信公众账号：jiangzz_wyDataStream 数据转换常规操作符// order zhangsan TV,GAMEval env = StreamExecutionEnvironment.createLocalEnvironment()val props = new Properties()pro...

2020-01-19 15:07:58 114

转载 Apache Flink DataStream API之程序结构分析&DataSource（章节二）

ApacheFlink® - 是针对于数据流的状态计算，Flink具有特殊类DataSet和DataStream来表示程序中的数据。您可以将它们视为可以包含重复项的不可变数据集合。在DataSet的情况下，数据是有限的，而对于DataStream，元素的数量可以是无限的。这些集合在某些关键方面与常规Java集合不同。首先，它们是不可变的，这意味着一旦创建它们就无法添加或删除元素。你也不能简单地检...

2020-01-19 15:07:41 149

转载 Apache Flink 章节1

Apache FlinkFlink 概述首先大数据存储和分析引擎Hadoop自2006年诞生。谈及Hadoop大家自然不会对 MapReduce感到陌生，它将计算分为两个阶段，分别为 Map 和 Reduce。MapReduce计算框架虽然借鉴了函数式编程和矢量编程的思想完成了分布式计算。但不得不承认MapReduce在矢量编程结构过于简单，在完成一些比较复杂的高阶计算（例如：机器学习线性回归...

2020-01-19 15:07:29 179

转载 Apache Hbase

Hbase概述Hbase是一个基于Hadoop之上的数据库服务，该数据库是一个分布式、可扩展的大的数据仓库。当您需要对大数据进行随机，实时读/写访问时，请使用Apache HBase™（HDFS虽然可以存储海量数据，但是对数据的管理粒度比较粗糙，只支持对文件的上传下载，并不支持对文件内容行记录级别的修改）。Apache HBase是一个开源，分布式，版本化，非关系型数据库，模仿了谷歌的Bigt...

2020-01-19 15:07:14 195

转载 Apache Kafka Stream基础操作

Kafka Streams流计算定义一般流式计算会与批量计算相比较。在流式计算模型中，输入是持续的，可以认为在时间上是无界的，也就意味着，永远拿不到全量数据去做计算。同时，计算结果是持续输出的，也即计算结果在时间上也是无界的。流式计算一般对实时性要求较高，同时一般是先定义目标计算，然后数据到来之后将计算逻辑应用于数据。同时为了提高计算效率，往往尽可能采用增量计算代替全量计算。批量处理模型中，一...

2020-01-19 15:06:58 540

转载 Apache Kafka 消息队列

概述Kafka是Apache软件基金会的开源的流处理平台，该平台提供了消息的订阅与发布，能够基于Kafka实现对网络日志流实时在线处理，在这个维度上弥补了Hadoop的离线分析系统的不足。因为基于hadoop的MapReduce系统分析离线数据延迟较高，而且不支持动态数据处理和分析。Kafka的流处理平台不仅仅可以为离线系统储备数据（通常使用Kafka作为数据缓冲），而且Kafka自身也提供了一...

2020-01-19 15:06:44 154

转载 Scala Language Programing Guide（章节一）

介绍Scala是一门多范式的编程语言,同时支持面向对象和面向函数编程风格。它以一种优雅的方式解决现实问题。虽然它是强静态类型的编程语言，但是它强大的类型推断能力，使其看起来就像是一个动态编程语言一样。Scala语言最终会被翻译成java字节码文件，可以无缝的和JVM集成，并且可以使用Scala调用java的代码库。除了Scala编程语言自身的特性以外，目前比较流行的Spark计算框架也是使用Sc...

2020-01-19 15:03:36 98

转载 Structured Streaming 编程指南基础

简介Structured Streaming 是一个构建在SparkSQL可扩展和容错的流处理引擎.用户可以使用计算静态批处理的SQL表达式实现Streaming计算。内部使用Spark SQL实现对数据流的持续计算和持续输出。用户还可以使用Dataset/DataFrame API实现对流数据的聚合、时间窗口、以及stream-to-batch的处理等，同时Struced Streaming系...

2020-01-19 15:03:22 336

原创 Flink 笔记

Apache Flink概述Flink是构建在Data Stream之上一款有状态计算框架。由于该款框架出现的较晚2014.12月发布，通常被人们认为是第3代流计算框架。第一代：MapReduce 2006年批磁盘 M->R 矢量 | 2014.9 Storm诞生流延迟低/吞吐小第二代：Spark RDD 2014.2 批内存 DAG （若干Stage） | 使用mic...

2020-01-19 15:03:03 368

转载 Hadoop集群搭建和基础操作

一、概述1.1 大数据概念大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。1.2 大数据面临的问题存储：单机存储有限，需要使用集群（多台机器）存储数据；硬件上必须有足够的存储容量，软件上有对应的容灾机制。分析：单机算力有限，也需要使用集群进行计算（需要在合理的时间内将数据变废为宝）1.3 大数据的特点4V Volume 数...

2020-01-19 15:02:51 498

原创 Apache Spark之架构概述(章节一)

背景介绍Spark是一个快如闪电的统一分析引擎（计算框架）用于大规模数据集的处理。Spark在做数据的批处理计算，计算性能大约是Hadoop MapReduce的10~100倍，因为Spark使用比较先进的基于DAG 任务调度，可以将一个任务拆分成若干个阶段，然后将这些阶段分批次交给集群计算节点处理。MapReduce VS SparkMapReduce作为第一代大数据处理框架，在设计初期只...

2020-01-19 15:02:39 229

原创 Apache Spark之RDD算子分析(章节三)

RDD 转换算子map将父类RDD的元素以此转换成新的RDD元素scala> sc.parallelize(List(1,2,3,4,5),3).map(item=>item+2).collect()flatMap将集合的元素展开,并转换scala> sc.textFile("hdfs:///demo/words") .flatMap(line=&...

2020-01-19 15:02:32 226

原创 Apache Spark Streaming (章节四)

Spark StreamingSpark Streaming是核心Spark API的扩展，可实现实时数据流的可扩展，高吞吐量，容错流处理。数据可以从许多来源（如Kafka，Flume，Kinesis或TCP套接字）中获取，并且可以使用以高级函数（如map，reduce，join和window）表示的复杂算法进行处理。最后，处理后的数据可以推送到文件系统，数据库和实时dashboards。在...

2020-01-19 15:02:17 287

原创 Apache Flink DataStreamAPI之 Windows（章节五）

窗口计算Windows是流计算的核心。Windows将流拆分为有限大小的“桶”，我们可以在其上应用计算。基本概念Window Assigners:Window Assigners定义如何将元素分配给窗口。WindowAssigner负责将每个传入元素分配给一个或多个窗口。Flink为最常见的用例提供了预定义的Window Assigners，分别是tumbling windows, slid...

2020-01-19 15:02:05 170

原创 Apache Flink 流处理（快速入门）

Flink Streaming概述DataStream在Flink中实现了对数据流的Transformation，内部Flink的数据源可以通过各种数据源创建，例如：消息队列、socket streams、文件。流计算的结果通过Sinks输出,例如将数据写入文件、标准输出等。共同依赖<properties> <flink.version>1.7.1</f...

2020-01-19 15:01:28 622

原创 Apache Spark之DStream算子(章节五)

DStreams 转换算子与RDD类似，转换允许修改来自输入DStream的数据。 DStreams支持普通Spark RDD上可用的许多转换。一些常见的如下。TransformationMeaningmap(func)Return a new DStream by passing each element of the source DStream through a ...

2020-01-19 15:01:18 202

原创 Apache Spark 之 SparkSQL(章节六)

Spark SQL是用于结构化数据处理的一个模块。同Spark RDD 不同地方在于Spark SQL的API可以给Spark计算引擎提供更多地信息，例如：数据结构、计算算子等。在内部Spark可以通过这些信息有针对对任务做优化和调整。这里有几种方式和Spark SQL进行交互，例如Dataset API和SQL等，这两种API可以混合使用。Spark SQL的一个用途是执行SQL查询。 Spar...

2020-01-19 15:00:40 452

原创 Spark SQL编程指南

Spark SQL 编程指南Spark SQL是用于结构化数据处理的一个模块。同Spark RDD 不同地方在于Spark SQL的API可以给Spark计算引擎提供更多地信息，例如:数据结构、计算算子等。在内部Spark可以通过这些信息有针对对任务做优化和调整。这里有几种方式和Spark SQL进行交互，例如Dataset API和SQL等，这两种API可以混合使用。Spark SQL的一个...

2020-01-19 15:00:22 244

原创版本控制工具-Git

版本控制工具-Git一、概述学习资料： https://git-scm.com/book/zh/v2什么是版本控制系统？版本控制软件提供完备的版本管理功能，用于存储、追踪目录（文件夹）和文件的修改历史，是软件开发者的必备工具，是软件公司的基础设施。版本控制软件的最高目标，是支持软件公司的配置管理活动，追踪多个版本的开发和维护活动，及时发布软件。一句话总结：版本控制是一种记录一个或若干...

2020-01-08 14:29:53 190

原创 Apache Spark SQL 章节六

Spark SQL 编程指南Spark SQL是用于结构化数据处理的一个模块。同Spark RDD 不同地方在于Spark SQL的API可以给Spark计算引擎提供更多地信息，例如:数据结构、计算算子等。在内部Spark可以通过这些信息有针对对任务做优化和调整。这里有几种方式和Spark SQL进行交互，例如Dataset API和SQL等，这两种API可以混合使用。Spark SQL的一个...

2019-12-09 20:28:49 144

原创 Apache Spark之RDD详解（章节二）

RDD概述Spark计算中一个重要的概念就是可以跨越多个节点的可伸缩分布式数据集 RDD（resilient distributeddataset） Spark的内存计算的核心就是RDD的并行计算。RDD可以理解是一个弹性的，分布式、不可变的、带有分区的数据集合，所谓的Spark的批处理，实际上就是正对RDD的集合操作，RDD有以下特点：包含一些列分区每个分区都有自己的计算的funct...

2019-12-06 22:01:46 137

转载 Apache Flink之架构概述和环境(章节一)

背景介绍继Spark之后第三代内存计算框架Flink应运而生，Flink作为第三代计算框架Flink吸取了二代大数据Spark计算的设计的精华，依然采用DAG模型做任务拆分，但是Spark在流处理领域上因为微观批处理实时性不高甚至在性能上还不能和一代流处理框架Storm匹敌。因此第三代计算引擎Flink诞生了，主要原因是Flink是一个纯流式计算引擎，而类似于Spark这种微批的引擎，只是Fl...

2019-12-06 21:43:25 132

原创 Hadoop系列之HDFS和MapReduce的使用