dogedong-CSDN博客

原创 Flink阶段总结

Flink总结TaskManager和SlotsTask Slot 是静态的概念，是指 TaskManager 具有的并发执行能力，可以通过参数 taskmanager.numberOfTaskSlots 进行配置，而并行度 parallelism 是动态概念，即 TaskManager 运行程序时实际使用的并发能力，可以通过参数 parallelism.default 进行配置。DataflowFlink 程序由 Source、Transforma...

2021-11-19 17:18:46 1072

原创 Spark阶段总结

kafka消费数据同一时刻，kafka当中数据只能被一个消费者组下面的一个消费者所消费。kafka消费者在消费数据的时候，都是分组别的。不同组的消费不受影响，相同组内的消费，需要注意，如果partition有3个，消费者有3个，那么便是每一个消费者消费其中一个partition对应的数据；如果有2个消费者，此时一个消费者消费其中一个partition数据，另一个消费者消费2个partition的数据。如果有超过3个的消费者，同一时间只能最多有3个消费者能消费得到数据，kaf.

2021-11-17 23:50:41 2055

原创 Day82_ELK（一）

ElasticSearch1、搜索的介绍搜索是指搜寻检索，指代使用一定手段来检索到我们自己需要的信息，包括从文件当中检索，百度当中检索，网站内部搜索等等2、全文检索的介绍1、全文检索的需求介绍首先我们谈几个公司，如雷贯耳的：百度、谷歌、维基百科；这些公司都有一个相似性就是门户网站，可以提供我们通过关键字搜索，然后快速的检索出我们想要的信息；【网页百度展示】比如我们检索优就业，百度后台就会按照这个关键字进行查找（里面有搜索库，以及爬虫库），然后按照权重来进行从上到下的排序，给我们高

2021-11-11 21:01:57 284

原创 Day79_Flink(五） FlinkSQL和CEP

课程大纲课程内容学习效果掌握目标 FlinkSQL FlinkTable 掌握 FlinkSQL 掌握 FlinkCEP FlinkCEP 掌握任务性能优化 ...

2021-11-08 21:54:53 2345 1

原创 Day78_Flink(四）Flink状态操作

课程大纲课程内容学习效果掌握目标 ProcessFunction ProcessFunction 掌握状态编程状态编程掌握容错机制容错机制掌握 ...

2021-11-07 23:23:28 1388

原创 Day77_Flink(三）Flink时间语义和水印

课程大纲课程内容学习效果掌握目标时间语义 EventTime 掌握 IngestionTime 掌握 ProcessingTime 掌握水印水印 ...

2021-11-04 22:52:18 319

原创 Day76_Flink(二）Flink算子操作

课程大纲课程内容学习效果掌握目标 DataSet/Stream Dataset/stream 掌握 Window操作 Window 掌握 DataSet/Stream APIFlink处理主要是分为流处理和批量处理。流处...

2021-11-02 23:25:42 661

原创 Day74~75_Flink(一）Flink基础核心知识

第一讲 Flink基础核心知识课程大纲课程内容学习效果掌握目标 Flink概述 Flink概述了解 Flink开发环境 Flink开发环境掌握 Flink入门实战 Flink入门实战 ..

2021-11-02 20:55:52 951

原创 Day73_Spark核心原理加强

一、Spark核心原理加强●课程说明高能预警Spark源码从1.x的40w行发展到现在的近100w行，有1400多位大牛贡献了代码。整个Spark框架源码是一个巨大的工程，（一）Spark专业术语定义Application/App：Spark应用程序指的是用户编写的Spark应用程序/代码，包含了Driver功能代码和分布在集群中多个节点上运行的Executor代码。Spark应用程序，由一个或多个作业JOB组成(因为代码中可能会调用多次Action)，如下图所示:.

2021-10-27 22:55:09 157

原创 Day72_Spark-streaming(二）

（三）、SparkStreaming算子1、常见的算子操作由于Streaming底层是基于Core来实现的，所以其很多算子相似于RDD，如下图1-11所示。这里我们主要学习三个算子，transform，updateByKey，window函数。2、Transform（1）概述transform是一个transformation算子，转换算子。怎么去理解呢？DStream上述提供的所有的transformation操作，都是DStream-2-DStream操作，没有一个DS.

2021-10-26 22:15:34 228

原创 Day71_Spark-streaming(一）

SparkStreaming基础架构课程大纲课程内容学习效果掌握目标 SparkStreaming简介流式计算了解 SparkStreaming简介 SparkStreaming API 整合Kafka 掌握

2021-10-26 08:59:57 266

原创 Day70_SparkSQL（二）

（二）、SparkSQL与Hive整合SparkSQL和Hive的整合，是一种比较常见的关联处理方式，SparkSQL加载Hive中的数据进行业务处理，同时将计算结果落地回Hive中。整合需要注意的地方1、需要引入hive的hive-site.xml，添加classpath目录下面即可，或者放到$SPARK_HOME/conf2、为了能够正常解析hive-site.xml中hdfs路径，需要将hdfs-site.xml和core-site.xml到classpath下面添加到clas

2021-10-24 21:34:21 259

原创 Day69_SparkSQL（一）

课程大纲课程内容学习效果掌握目标 SparkSQL简介 SparkSQL简介了解 SparkSQL特点 SparkSQL编程编程模型掌握 API操作掌握 ...

2021-10-21 23:16:43 596

原创 Day68_Spark(三）Spark RDD的分区与依赖关系

课程大纲课程内容学习效果掌握目标 RDD数据分区分区策略掌握自定义分区掌握 RDD依赖关系依赖关系掌握 DAG有向无环图掌握 ...

2021-10-21 00:50:06 445 1

原创 Day67_Spark(二）Spark RDD操作

课程大纲课程内容学习效果掌握目标 Spark执行流程 Wordcount执行流程掌握 Spark作业提交流程掌握 RDD操作 RDD初始化掌握 RDD操作 ...

2021-10-20 00:53:31 1002

原创 Spark笔记

Spark基础核心知识什么是RDD？RDD有什么特点？能否携带数据？RDD：叫做弹性分布式数据集特点：不可变，可分区，里面的元素可以并行计算的集合。不能携带数据，类似于java当中的接口，携带的是元数据。依赖关系窄依赖：父RDD的一个分区只能被子RDD的一个分区所依赖=》独生子女宽依赖：父RDD的一个分区会被子RDD的多个分区所依赖=》超生子女分区方式非key，value对的数据，分区方式为None；Key，value对的数据，默认分区方式也为None，但是，可以指定分..

2021-10-19 09:05:43 133

原创 Day66_Spark（一）Spark基础核心知识

SparkCore课堂讲义第一讲 Spark基础核心知识课程大纲课程内容学习效果掌握目标 Spark简介大数据生态发展了解什么是Spvark Spark开发环境 Spark standalone 掌握

2021-10-19 09:01:12 409

原创 Day65_补充：JVM、SQL：索引、视图、函数和过程

课程大纲课程内容学习效果掌握目标 JVM发展史 JVM发展史了解 JVM内存区域构成 GC基本原理 GC的基本原理掌握 JVM GC收集器掌握 ...

2021-10-18 17:28:36 83

原创 Day64_Kafka(二）

第二讲 Kafka架构课程大纲课程内容学习效果掌握目标 Kafka架构 Kafka就掌握 Kafka ack Exactly once Kafka log Kafka log 掌握

2021-10-18 11:19:17 448

原创 Day63_Kafka(一）

第一讲 Kafka基础操作课程大纲课程内容学习效果掌握目标 Kafka简介消息队列掌握 Kafka简介 Kafka分布式环境 Kafka操作 Kafka shell 掌握

2021-10-13 23:44:34 204

原创 Day62_Scala(五）

第五讲 Scala Actor与Akka 课程大纲课程内容学习效果掌握目标类型参数泛型类掌握泛型方法掌握协变与逆变了解隐式转换隐式转换函数

2021-10-12 15:43:50 58

原创 Day61_Scala(四)

第四讲 Scala函数式编程（下）一、Scala集合体系（一）、Scala集合体系概述1、Scala中的集合体系主要包括：Iterable、Seq（IndexSeq）、Set（SortedSet）、Map（SortedMap）。其中Iterable是所有集合trait的根trait。实际上Seq、Set、和Map都是子trait。 Seq：是一个有先后次序的值的序列，比如数组或列表。IndexSeq允许我们通过整形的下标快速的访问任意元素。举例来说，ArrayBuffer是带下标的，..

2021-10-11 22:48:36 144

原创 Day60_Scala(三）

第三讲 Scala集合入门和函数式编程（上）一、Scala集合入门 scala的集合分为了两类，一类是可变的集合（集合可以执行增删改查操作），另一类是不可变集合（集合元素在初始化的时候确定，后续只能进行查，有的可以进行修改，有的不可以）。二者可能名称一样，但是在不同的包下面，对应的包为：scala.collection.mutable和scala.collection.immutable。 scala默认使用的集合，或者默认导入的包是immutable。说明：这...

2021-10-10 21:28:37 592

原创 Day59_scala(二）

第二讲 Scala面向对象一、类的基本操作（一）、类的定义1、类的定义类或者类型，就是对客观的一类事物的抽象。用一个class关键字来描述，在这个类中可以拥有这一类事物的属性，行为等等。或者说就是用计算机的语言来描述的一类事物，就是类，在java,scala中都是用关键字class来标识。因为类是对一类事物的抽象，所以不具备具体的行为执行能力，要想完成具体的操作，就需要使用该类的实例或者对象。//创建scala中的一个类class Dog {...

2021-10-08 19:34:47 92

原创 Day52_Flume

一、Flume概述（一）Flume定义Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构，灵活简单。说白了，这个工具就是帮助我们实时的采集数据的，如果没有这个工具的话，我们需要自己写好多代码来完成数据采集，而且采集的数据或者目的地一旦发生变化，那么需要修改代码，比较麻烦，有了这个工具之后只需要简单的进行配置，就可以使用它采集数据了，不用写代码。Flume支持定制各类数据发送方，用于收集各类型数据；同时，Flume支持定制各

2021-10-08 09:52:49 129

原创 Day58_scala（一）

一、scala开发环境（一）Scala安装与验证1、Scala下载综合后面学习的Kafka、Spark、Flink等对Scala版本的要求，我们这里选择Scala-2.11.12版本来为各位同学进行讲述Scala。下载地址：Scala 2.11.12 | The Scala Programming Language，内容如下图1-2-1所示。这里我们下载图1-2-1中括起来的两个版本，一个在Window下面安装，一个在Linux环境中安装。2、Scala安装要求（1.

2021-09-29 23:47:30 401

原创 Day47_HiveSQL

(一）多字节分隔符应用场景1、Hive中的分隔符Hive中默认使用单字节分隔符来加载文本数据，例如逗号、制表符、空格等等，默认的分隔符为\001。根据不同文件的不同分隔符，我们可以通过在创建表时使用 row format delimited fields terminated by ‘单字节分隔符’ 来指定文件中的分割符，确保正确将表中的每一列与文件中的每一列实现一一对应的关系。特殊数据在实际工作中，我们遇到的数据往往不是非常规范化的数据，例如我们会遇到以下的两种情况..

2021-09-16 20:44:45 163

原创 Day46_Hive高阶

五、压缩和存储在实际工作当中，hive当中处理的数据，一般都需要经过压缩，可以使用压缩来节省我们的MR处理的网络带宽压缩优点：减少存储磁盘空间，降低单节点的磁盘IO。由于压缩后的数据占用的带宽更少，因此可以加快数据在Hadoop集群流动的速度，减少网络传输带宽。压缩缺点：需要花费额外的时间/CPU做压缩和解压缩计算。（一）Hadoop压缩a、Hadoop支持的压缩算法Haodop对文件压缩均实现org.apache.hadoop.io.compress.Comp.

2021-09-16 20:27:59 444

原创 Day44-45_Hive高级

四、HQL（hive SQL）https://www.docs4dev.com/docs/zh/apache-hive/3.1.1/reference/#1）在hive-site.xml文件中添加如下配置信息，就可以实现显示当前数据库，以及查询表的头信息配置。<property> <name>hive.cli.print.header</name> <value>true</value></property>&lt

2021-09-16 20:06:12 256

原创 Day43_Hive基础

一、hive概述（一）hive简介当我们去尝试使用mapreduce去处理海量数据的时候，发现开发过程中并不是很顺利，经过复杂的需求分析，我们需要设计map、reduce阶段分别要处理什么样的业务逻辑，以及key、value的具体定义，如果可以通过sql来驱动业务，那么即使复杂的业务也会变得相对轻松一些，那么有没有这样的工具来实现我们的想法呢？那么我需要学习认识一下apache又一款优秀的工具：Apache Hive。Hive是2007年8月由Facebook开源用于解决海量结构化日志.

2021-09-16 19:15:34 297

原创 Day50_Hbase深入（二）

（三）ROWKEY的设计一条数据的唯一标识就是 RowKey，那么这条数据存储于哪个分区，取决于 RowKey 处于哪个一个预分区的区间内，设计 RowKey 的主要目的，就是让数据均匀的分布于所有的 region 中，在一定程度上防止数据倾斜。接下来我们就谈一谈 RowKey 常用的设计方案。1．生成随机数、hash、散列值比如：原本 rowKey 为 1001 的， SHA1 后变成：dd01903921ea24941c26a48f2cec24e0bb0e8cc7原

2021-09-15 15:18:23 163

原创 Day49_深入HBase(一）

（一）重要工作机制1、读数据流程从zookeeper找到meta表所在的region的位置，然后读取meta表中的数据。而meta中又存储了用户表的region信息ZK：/hbase/meta-region-server，该节点保存了meta表的region server数据根据namespace、表名和rowkey根据meta表中的数据找到对应的region信息scan "hbase:meta", { FILTER => "PrefixFilter('ORDER_INFO')

2021-09-15 15:07:22 308

原创 Day49_Hbase入门（二）

4、需求三：使用Java代码删除表实现步骤：判断表是否存在如果存在，则禁用表再删除表参考代码：// 删除表@Testpublic void dropTable() throws IOException { // 表名 TableName tableName = TableName.valueOf("WATER_BILL"); // 1. 判断表是否存在 if(admin.tableExists(tableName)) { // 2. ...

2021-09-14 21:06:56 274

原创 Day48_HBase入门（一）

（一）简介Apache HBase – Apache HBase™ HomeHbase是一个构建在Hdfs基础之上的非关系型（NoSql，Not Only Sql）数据库，也是一个分布式的、面向列的开源数据库Nosql数据库和关系型数据库的明显区别：Nosql数据库往往不会提供sql语句接口（你不能写sql语句操作它，往往是以api/指令的形式）。1、Hadoop从 1970 年开始，大多数的公司数据存储和维护使用的是关系型数据库大数据技术出现后，很多拥有海量数据的公司开始...

2021-09-14 00:09:45 338

原创 Day43_Hive(一）

一、hive概述（一）hive简介当我们去尝试使用mapreduce去处理海量数据的时候，发现开发过程中并不是很顺利，经过复杂的需求分析，我们需要设计map、reduce阶段分别要处理什么样的业务逻辑，以及key、value的具体定义，如果可以通过sql来驱动业务，那么即使复杂的业务也会变得相对轻松一些，那么有没有这样的工具来实现我们的想法呢？那么我需要学习认识一下apache又一款优秀的工具：Apache Hive。Hive是2007年8月由Facebook开源用于解决海量结构化日志.

2021-09-06 18:21:14 253

原创 Day42_Zookeeper

一、Zookeeper概述（一）为什么学习zk我们为什么要学习zookeeper呢？其实从字面的意思我们就可以揣测到zookeeper就是动物园管理员的意思，如果把大数据的一些技术栈、框架比作各种动物，管理员应该就是处于协调、处理这些动物的角色，其实我们经常会发现共享的资源在并发的情况下会出现竞争，在线程间可以使用Java提供的锁机制来协调这些资源，那么在分布式的环境下，如何来协调这些资源呢？1、分布式环境下无法保证顺序在单机环境如果想让A先执行，B后执行，先调用A后调用B就可以了；由于..

2021-09-05 21:33:28 387

原创 Day41_Hadoop优化

（一）MapReduce跑的慢的原因MapReduce 程序效率的瓶颈在于两点：计算机性能 CPU、内存、磁盘健康、网络I/O 操作优化（1）数据倾斜（2）map和reduce数设置不合理（3）map运行时间太长，导致reduce等待过久（4）小文件过多（5）spill(溢出)次数过多，溢出数据到磁盘（6）merge次数过多，Shuffle溢出时后会有合并，reduce端也会有合并（二）MapRe...

2021-09-02 20:14:54 152

原创 Day41_Hadoop之Yarn

（一）Yarn概述Yarn是一个资源调度平台，负责为运算程序提供服务器运算资源，相当于一个分布式的操作系统平台，而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。（二）Yarn基本架构 YARN主要由ResourceManager、NodeManager、ApplicationMaster（AM）和Container等组件构成，如图所示：图：Yarn基本架构（三）Yarn工作机制 Yarn运行机制，如图所示：工作机制详...

2021-09-02 19:59:12 117

原创 Day40~41_Hadoop之MapReduce（三）

七、MapReduce经典案例（一）好友推荐案例1、需求推荐好友的好友，比如给hadoop推荐cat、hello、mr。（需求实际就是获取非好友的两个人有多少共同好友）2、数据准备双向好友关系tom:hello hadoop catworld:hadoop hello hivecat:tom hivemr:hive hellohive:cat hadoop world hello mrHadoop:tom hive worldHello:tom world ..

2021-09-01 17:24:40 180

原创 Day39~40_Hadoop之MapReduce（二）

<property> <name>mapreduce.jobhistory.address</name> <value>bd-offcn-01:10020</value></property><property> <name>mapreduce.jobhistory.webapp...

2021-08-31 19:45:01 201

空空如也

空空如也