自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(112)
  • 收藏
  • 关注

原创 Flink阶段总结

Flink总结TaskManager和SlotsTask Slot 是静态的概念,是指 TaskManager 具有的并发执行能力,可以通过 参数 taskmanager.numberOfTaskSlots 进行配置,而并行度 parallelism 是动态概念, 即 TaskManager 运行程序时实际使用的并发能力,可以通过参数 parallelism.default 进行配置。DataflowFlink 程序由 Source、Transforma...

2021-11-19 17:18:46 1072

原创 Spark阶段总结

kafka消费数据同一时刻,kafka当中数据只能被一个消费者组下面的一个消费者所消费。kafka消费者在消费数据的时候,都是分组别的。不同组的消费不受影响,相同组内的消费,需要注意,如果partition有3个,消费者有3个,那么便是每一个消费者消费其中一个partition对应的数据;如果有2个消费者,此时一个消费者消费其中一个partition数据,另一个消费者消费2个partition的数据。如果有超过3个的消费者,同一时间只能最多有3个消费者能消费得到数据,kaf.

2021-11-17 23:50:41 2055

原创 Day82_ELK(一)

ElasticSearch1、搜索的介绍搜索是指搜寻检索,指代使用一定手段来检索到我们自己需要的信息,包括从文件当中检索,百度当中检索,网站内部搜索等等2、全文检索的介绍1、全文检索的需求介绍首先我们谈几个公司,如雷贯耳的:百度、谷歌、维基百科;这些公司都有一个相似性就是门户网站,可以提供我们通过关键字搜索,然后快速的检索出我们想要的信息;【网页百度展示】比如我们检索优就业,百度后台就会按照这个关键字进行查找(里面有搜索库,以及爬虫库),然后按照权重来进行从上到下的排序,给我们高

2021-11-11 21:01:57 284

原创 Day79_Flink(五) FlinkSQL和CEP

课程大纲 课程内容 学习效果 掌握目标 FlinkSQL FlinkTable 掌握 FlinkSQL 掌握 FlinkCEP FlinkCEP 掌握 任务性能优化 ...

2021-11-08 21:54:53 2345 1

原创 Day78_Flink(四)Flink状态操作

课程大纲 课程内容 学习效果 掌握目标 ProcessFunction ProcessFunction 掌握 状态编程 状态编程 掌握 容错机制 容错机制 掌握 ...

2021-11-07 23:23:28 1388

原创 Day77_Flink(三)Flink时间语义和水印

课程大纲 课程内容 学习效果 掌握目标 时间语义 EventTime 掌握 IngestionTime 掌握 ProcessingTime 掌握 水印 水印 ...

2021-11-04 22:52:18 319

原创 Day76_Flink(二)Flink算子操作

课程大纲 课程内容 学习效果 掌握目标 DataSet/Stream Dataset/stream 掌握 Window操作 Window 掌握 DataSet/Stream APIFlink处理主要是分为流处理和批量处理。流处...

2021-11-02 23:25:42 661

原创 Day74~75_Flink(一)Flink基础核心知识

第一讲 Flink基础核心知识 课程大纲 课程内容 学习效果 掌握目标 Flink概述 Flink概述 了解 Flink开发环境 Flink开发环境 掌握 Flink入门实战 Flink入门实战 ..

2021-11-02 20:55:52 951

原创 Day73_Spark核心原理加强

一、Spark核心原理加强●课程说明高能预警Spark源码从1.x的40w行发展到现在的近100w行,有1400多位大牛贡献了代码。整个Spark框架源码是一个巨大的工程,(一)Spark专业术语定义Application/App:Spark应用程序指的是用户编写的Spark应用程序/代码,包含了Driver功能代码和分布在集群中多个节点上运行的Executor代码。Spark应用程序,由一个或多个作业JOB组成(因为代码中可能会调用多次Action),如下图所示:.

2021-10-27 22:55:09 157

原创 Day72_Spark-streaming(二)

(三)、SparkStreaming算子1、常见的算子操作由于Streaming底层是基于Core来实现的,所以其很多算子相似于RDD,如下图1-11所示。这里我们主要学习三个算子,transform,updateByKey,window函数。2、Transform(1)概述transform是一个transformation算子,转换算子。怎么去理解呢?DStream上述提供的所有的transformation操作,都是DStream-2-DStream操作,没有一个DS.

2021-10-26 22:15:34 228

原创 Day71_Spark-streaming(一)

SparkStreaming基础架构 课程大纲 课程内容 学习效果 掌握目标 SparkStreaming简介 流式计算 了解 SparkStreaming简介 SparkStreaming API 整合Kafka 掌握

2021-10-26 08:59:57 266

原创 Day70_SparkSQL(二)

(二)、SparkSQL与Hive整合SparkSQL和Hive的整合,是一种比较常见的关联处理方式,SparkSQL加载Hive中的数据进行业务处理,同时将计算结果落地回Hive中。整合需要注意的地方1、需要引入hive的hive-site.xml,添加classpath目录下面即可,或者放到$SPARK_HOME/conf2、为了能够正常解析hive-site.xml中hdfs路径,需要将hdfs-site.xml和core-site.xml到classpath下面添加到clas

2021-10-24 21:34:21 259

原创 Day69_SparkSQL(一)

课程大纲 课程内容 学习效果 掌握目标 SparkSQL简介 SparkSQL简介 了解 SparkSQL特点 SparkSQL编程 编程模型 掌握 API操作 掌握 ...

2021-10-21 23:16:43 596

原创 Day68_Spark(三)Spark RDD的分区与依赖关系

课程大纲 课程内容 学习效果 掌握目标 RDD数据分区 分区策略 掌握 自定义分区 掌握 RDD依赖关系 依赖关系 掌握 DAG有向无环图 掌握 ...

2021-10-21 00:50:06 445 1

原创 Day67_Spark(二)Spark RDD操作

课程大纲 课程内容 学习效果 掌握目标 Spark执行流程 Wordcount执行流程 掌握 Spark作业提交流程 掌握 RDD操作 RDD初始化 掌握 RDD操作 ...

2021-10-20 00:53:31 1002

原创 Spark笔记

Spark基础核心知识什么是RDD?RDD有什么特点?能否携带数据?RDD:叫做弹性分布式数据集特点:不可变,可分区,里面的元素可以并行计算的集合。不能携带数据,类似于java当中的接口,携带的是元数据。依赖关系窄依赖:父RDD的一个分区只能被子RDD的一个分区所依赖=》独生子女宽依赖:父RDD的一个分区会被子RDD的多个分区所依赖=》超生子女分区方式非key,value对的数据,分区方式为None;Key,value对的数据,默认分区方式也为None,但是,可以指定分..

2021-10-19 09:05:43 133

原创 Day66_Spark(一)Spark基础核心知识

SparkCore课堂讲义第一讲 Spark基础核心知识 课程大纲 课程内容 学习效果 掌握目标 Spark简介 大数据生态发展 了解 什么是Spvark Spark开发环境 Spark standalone 掌握

2021-10-19 09:01:12 409

原创 Day65_补充:JVM、SQL:索引、视图、函数和过程

课程大纲 课程内容 学习效果 掌握目标 JVM发展史 JVM发展史 了解 JVM内存区域构成 GC基本原理 GC的基本原理 掌握 JVM GC收集器 掌握 ...

2021-10-18 17:28:36 83

原创 Day64_Kafka(二)

第二讲 Kafka架构 课程大纲 课程内容 学习效果 掌握目标 Kafka架构 Kafka就 掌握 Kafka ack Exactly once Kafka log Kafka log 掌握

2021-10-18 11:19:17 448

原创 Day63_Kafka(一)

第一讲 Kafka基础操作 课程大纲 课程内容 学习效果 掌握目标 Kafka简介 消息队列 掌握 Kafka简介 Kafka分布式环境 Kafka操作 Kafka shell 掌握

2021-10-13 23:44:34 204

原创 Day62_Scala(五)

第五讲 Scala Actor与Akka 课程大纲 课程内容 学习效果 掌握目标 类型参数 泛型类 掌握 泛型方法 掌握 协变与逆变 了解 隐式转换 隐式转换函数

2021-10-12 15:43:50 58

原创 Day61_Scala(四)

第四讲 Scala函数式编程(下)一、Scala集合体系(一)、Scala集合体系概述1、Scala中的集合体系主要包括:Iterable、Seq(IndexSeq)、Set(SortedSet)、Map(SortedMap)。其中Iterable是所有集合trait的根trait。实际上Seq、Set、和Map都是子trait。 Seq:是一个有先后次序的值的序列,比如数组或列表。IndexSeq允许我们通过整形的下标快速的访问任意元素。举例来说,ArrayBuffer是带下标的,..

2021-10-11 22:48:36 144

原创 Day60_Scala(三)

第三讲 Scala集合入门和函数式编程(上)一、Scala集合入门​ scala的集合分为了两类,一类是可变的集合(集合可以执行增删改查操作),另一类是不可变集合(集合元素在初始化的时候确定,后续只能进行查,有的可以进行修改,有的不可以)。二者可能名称一样,但是在不同的包下面,对应的包为:scala.collection.mutable和scala.collection.immutable。​ scala默认使用的集合,或者默认导入的包是immutable。​ 说明:这...

2021-10-10 21:28:37 592

原创 Day59_scala(二)

第二讲 Scala面向对象一、类的基本操作(一)、类的定义1、类的定义​ 类或者类型,就是对客观的一类事物的抽象。用一个class关键字来描述,在这个类中可以拥有这一类事物的属性,行为等等。​ 或者说就是用计算机的语言来描述的一类事物,就是类,在java,scala中都是用关键字class来标识。​ 因为类是对一类事物的抽象,所以不具备具体的行为执行能力,要想完成具体的操作,就需要使用该类的实例或者对象。//创建scala中的一个类class Dog {...

2021-10-08 19:34:47 92

原创 Day52_Flume

一、Flume概述(一)Flume定义Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构,灵活简单。说白了,这个工具就是帮助我们实时的采集数据的,如果没有这个工具的话,我们需要自己写好多代码来完成数据采集,而且采集的数据或者目的地一旦发生变化,那么需要修改代码,比较麻烦,有了这个工具之后只需要简单的进行配置,就可以使用它采集数据了,不用写代码。Flume支持定制各类数据发送方,用于收集各类型数据;同时,Flume支持定制各

2021-10-08 09:52:49 129

原创 Day58_scala(一)

一、scala开发环境(一)Scala安装与验证1、Scala下载综合后面学习的Kafka、Spark、Flink等对Scala版本的要求,我们这里选择Scala-2.11.12版本来为各位同学进行讲述Scala。下载地址:Scala 2.11.12 | The Scala Programming Language,内容如下图1-2-1所示。这里我们下载图1-2-1中括起来的两个版本,一个在Window下面安装,一个在Linux环境中安装。2、Scala安装要求(1.

2021-09-29 23:47:30 401

原创 Day47_HiveSQL

(一)多字节分隔符应用场景1、Hive中的分隔符Hive中默认使用单字节分隔符来加载文本数据,例如逗号、制表符、空格等等,默认的分隔符为\001。根据不同文件的不同分隔符,我们可以通过在创建表时使用 row format delimited fields terminated by ‘单字节分隔符’ 来指定文件中的分割符,确保正确将表中的每一列与文件中的每一列实现一一对应的关系。特殊数据在实际工作中,我们遇到的数据往往不是非常规范化的数据,例如我们会遇到以下的两种情况..

2021-09-16 20:44:45 163

原创 Day46_Hive高阶

五、压缩和存储在实际工作当中,hive当中处理的数据,一般都需要经过压缩,可以使用压缩来节省我们的MR处理的网络带宽压缩优点:减少存储磁盘空间,降低单节点的磁盘IO。由于压缩后的数据占用的带宽更少,因此可以加快数据在Hadoop集群流动的速度,减少网络传输带宽。压缩缺点:需要花费额外的时间/CPU做压缩和解压缩计算。(一)Hadoop压缩a、Hadoop支持的压缩算法Haodop对文件压缩均实现org.apache.hadoop.io.compress.Comp.

2021-09-16 20:27:59 444

原创 Day44-45_Hive高级

四、HQL(hive SQL)https://www.docs4dev.com/docs/zh/apache-hive/3.1.1/reference/#1)在hive-site.xml文件中添加如下配置信息,就可以实现显示当前数据库,以及查询表的头信息配置。<property> <name>hive.cli.print.header</name> <value>true</value></property>&lt

2021-09-16 20:06:12 256

原创 Day43_Hive基础

一、hive概述(一)hive简介当我们去尝试使用mapreduce去处理海量数据的时候,发现开发过程中并不是很顺利,经过复杂的需求分析,我们需要设计map、reduce阶段分别要处理什么样的业务逻辑,以及key、value的具体定义,如果可以通过sql来驱动业务,那么即使复杂的业务也会变得相对轻松一些,那么有没有这样的工具来实现我们的想法呢?那么我需要学习认识一下apache又一款优秀的工具:Apache Hive。Hive是2007年8月由Facebook开源用于解决海量结构化日志.

2021-09-16 19:15:34 297

原创 Day50_Hbase深入(二)

(三)ROWKEY的设计一条数据的唯一标识就是 RowKey,那么这条数据存储于哪个分区,取决于 RowKey 处 于哪个一个预分区的区间内,设计 RowKey 的主要目的 ,就是让数据均匀的分布于所有的 region 中,在一定程度上防止数据倾斜。接下来我们就谈一谈 RowKey 常用的设计方案。1.生成随机数、hash、散列值比如:原 本 rowKey 为 1001 的 , SHA1 后 变 成 :dd01903921ea24941c26a48f2cec24e0bb0e8cc7原

2021-09-15 15:18:23 163

原创 Day49_深入HBase(一)

(一)重要工作机制1、读数据流程从zookeeper找到meta表所在的region的位置,然后读取meta表中的数据。而meta中又存储了用户表的region信息ZK:/hbase/meta-region-server,该节点保存了meta表的region server数据根据namespace、表名和rowkey根据meta表中的数据找到对应的region信息scan "hbase:meta", { FILTER => "PrefixFilter('ORDER_INFO')

2021-09-15 15:07:22 308

原创 Day49_Hbase入门(二)

4、需求三:使用Java代码删除表实现步骤:判断表是否存在 如果存在,则禁用表 再删除表参考代码:// 删除表@Testpublic void dropTable() throws IOException { // 表名 TableName tableName = TableName.valueOf("WATER_BILL"); // 1. 判断表是否存在 if(admin.tableExists(tableName)) { // 2. ...

2021-09-14 21:06:56 274

原创 Day48_HBase入门(一)

(一)简介Apache HBase – Apache HBase™ HomeHbase是一个构建在Hdfs基础之上的非关系型(NoSql,Not Only Sql)数据库,也是一个分布式的、面向列的开源数据库Nosql数据库和关系型数据库的明显区别:Nosql数据库往往不会提供sql语句接口(你不能写sql语句操作它,往往是以api/指令的形式)。1、Hadoop从 1970 年开始,大多数的公司数据存储和维护使用的是关系型数据库 大数据技术出现后,很多拥有海量数据的公司开始...

2021-09-14 00:09:45 338

原创 Day43_Hive(一)

一、hive概述(一)hive简介当我们去尝试使用mapreduce去处理海量数据的时候,发现开发过程中并不是很顺利,经过复杂的需求分析,我们需要设计map、reduce阶段分别要处理什么样的业务逻辑,以及key、value的具体定义,如果可以通过sql来驱动业务,那么即使复杂的业务也会变得相对轻松一些,那么有没有这样的工具来实现我们的想法呢?那么我需要学习认识一下apache又一款优秀的工具:Apache Hive。Hive是2007年8月由Facebook开源用于解决海量结构化日志.

2021-09-06 18:21:14 253

原创 Day42_Zookeeper

一、Zookeeper概述(一)为什么学习zk我们为什么要学习zookeeper呢?其实从字面的意思我们就可以揣测到zookeeper就是动物园管理员的意思,如果把大数据的一些技术栈、框架比作各种动物,管理员应该就是处于协调、处理这些动物的角色,其实我们经常会发现共享的资源在并发的情况下会出现竞争,在线程间可以使用Java提供的锁机制来协调这些资源,那么在分布式的环境下,如何来协调这些资源呢?1、分布式环境下无法保证顺序在单机环境如果想让A先执行,B后执行,先调用A后调用B就可以了;由于..

2021-09-05 21:33:28 387

原创 Day41_Hadoop优化

(一)MapReduce跑的慢的原因MapReduce 程序效率的瓶颈在于两点:计算机性能 CPU、内存、磁盘健康、网络I/O 操作优化 (1)数据倾斜 (2)map和reduce数设置不合理 (3)map运行时间太长,导致reduce等待过久 (4)小文件过多 (5)spill(溢出)次数过多,溢出数据到磁盘 (6)merge次数过多,Shuffle溢出时后会有合并,reduce端也会有合并(二)MapRe...

2021-09-02 20:14:54 152

原创 Day41_Hadoop之Yarn

(一)Yarn概述Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。(二)Yarn基本架构 YARN主要由ResourceManager、NodeManager、ApplicationMaster(AM)和Container等组件构成,如图所示:图:Yarn基本架构(三)Yarn工作机制 Yarn运行机制,如图所示:工作机制详...

2021-09-02 19:59:12 117

原创 Day40~41_Hadoop之MapReduce(三)

七、MapReduce经典案例(一)好友推荐案例1、需求推荐好友的好友,比如给hadoop推荐cat、hello、mr。(需求实际就是获取非好友的两个人有多少共同好友)2、数据准备双向好友关系tom:hello hadoop catworld:hadoop hello hivecat:tom hivemr:hive hellohive:cat hadoop world hello mrHadoop:tom hive worldHello:tom world ..

2021-09-01 17:24:40 180

原创 Day39~40_Hadoop之MapReduce(二)

<!-- 历史服务器端地址 --><property> <name>mapreduce.jobhistory.address</name> <value>bd-offcn-01:10020</value></property><!-- 历史服务器web端地址 --><property> <name>mapreduce.jobhistory.webapp...

2021-08-31 19:45:01 201

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除