自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(64)
  • 收藏
  • 关注

原创 Flink 常见面试汇总

面试题一:应用架构问题:公司怎么提交的实时任务,有多少 Job Manager?解答:我们使用 yarn session 模式提交任务。每次提交都会创建一个新的 Flink 集群,为每一个 job 提供一个 yarn-session,任务之间互相独立,互不影响, 方便管理。任务执行完成之后创建的集群也会消失。线上命令脚本如下: bin/yarn-session.sh -n 7 -s 8 -jm 3072 -tm 32768 -qu root.*.* -nm *-* -d 其中申请 7 个 t

2020-07-20 17:31:43 340 1

原创 Spark经典面试题

1.什么spark?spark是基于内存计算的通用大数据并行计算框架,是一个快速、通用可扩展的大数据分析引擎。它给出了大一统的软件开发栈,适用于不同场合的分布式场景,如批处理、迭代算法、交互式查询、流处理、机器学习和图计算。2.spark生态有哪些?SparkCore:spark的核心计算 主要RddSparkSQL:提供了类sql方式操作结构化半结构化数据。对历史数据进行交互式查询。(...

2020-02-03 19:32:19 2025

原创 hdfs查看目录文件的大小 hdfs dfs -du -s -h /

1.hdfs dfs -du -h 查看各级文件大小会出现两列数字,第一列为单个文件实际大小,第二列为备份大小。2.hdfs dfs -ls -h也可以查看文件大小 但是当子文件目录过多时 统计的大小为03.命令 hdfs dfs -du -s -h /user/hive/warehouse/结果 97.1 G 291.3 G /user/hive/warehouse第一列标示该目录下总文件大小第二列标示该目录下所有文件在集群上的总存储大小和你的副本数相关,我的副本数是3 ,所以第二列的

2020-11-23 10:29:08 15332

原创 Sql Server —— 数据类型详解

数据类型是一种属性,用于指定对象可保存的数据的类型,SQL Server中支持多种数据类型,包括字符类型、数值类型以及日期类型等。数据类型相当于一个容器,容器的大小决定了装的东西的多少,将数据分为不同的类型可以节省磁盘空间和资源。Sql Server 还能自动限制每个数据类型的取值范围,例如定义了一个类型为int的字段,如果插入数据时插入的值的大小在smallint或者tinyint范围之内, Sql Server 会自动将类型转换为smallint 或者tinyint,这样一来,在存储数据时,占用的存.

2020-11-20 16:22:29 551

原创 hive 动态分区插入数据时报错

Error: java.lang.RuntimeException: org.apache.hadoop.hive.ql.metadata.HiveException: Hive Runtime Error while processing rowat org.apache.hadoop.hive.ql.exec.mr.ExecMapper.map(ExecMapper.java:157)at org.apache.hadoop.mapred.MapRunner.run(MapRunner.java:5

2020-11-18 17:20:54 1243

原创 Access denied for user root. Superuser privilege is required...

在使用 cloudera manager 安装 hdfs 的过程中,报错 using /usr/java/jdk1.7.0_67/ as JAVA_HOME using 5 as CDH_VERSION using /opt/cm-5.7.0/run/cloudera-scm-agent/process/25-hdfs-NAMENODE-createtmp as CONF_DIR using as SECURE_USER using as SECURE_GROUP unlimited Directory

2020-11-02 13:03:25 1729

原创 数据治理的方法论

引言:数据分析师的角色犹如一位大厨,原料有问题,大厨肯定烹饪不出色香味俱佳的大菜,数据有问题,数据分析师得出的结论自然也就不可靠。 先从脏数据的种类及处理方法谈起。脏数据的种类及处理方法 首先,我们来了解一下脏数据的种类,明白我们可能会面对哪些问题。1 数据缺失:缺一些记录,或者一条记录里缺一些值(空值),或者两者都缺。原因可能有很多种,系统导致的或人为导致的可能性都存在。如果有空值,为了不影响分析的准确性,要么不将空值纳入分析范围,要么进行补值。前者会减少分析的样本量,后者需要根据分析的.

2020-10-26 11:33:58 638 2

原创 Spark——什么是数据倾斜,怎样去处理数据倾斜?(最全)

数据倾斜是一种很常见的问题(依据二八定律),简单来说,比方WordCount中某个Key对应的数据量非常大的话,就会产生数据倾斜,导致两个后果:OOM(单或少数的节点);拖慢整个Job执行时间(其他已经完成的节点都在等这个还在做的节点)数据倾斜主要分为两类: 聚合倾斜 和 join倾斜聚合倾斜双重聚合(局部聚合+全局聚合)场景: 对RDD进行reduceByKey等聚合类shuffle算子,SparkSQL的groupBy做分组聚合这两种情况 思路:首先通过map给每个key打上n以内的

2020-09-09 22:53:55 372

原创 spark2.0为什么放弃了akka 而用netty?

很多Spark用户也使用Akka,但是由于Akka不同版本之间无法互相通信,这就要求用户必须使用跟Spark完全一样的Akka版本,导致用户无法升级Akka。Spark的Akka配置是针对Spark自身来调优的,可能跟用户自己代码中的Akka配置冲突。Spark用的Akka特性很少,这部分特性很容易自己实现。同时,这部分代码量相比Akka来说少很多,debug比较容易。如果遇到什么bug,也可以自己马上fix,不需要等Akka上游发布新版本。而且,Spark升级Akka本身又因为第一点会强制要求用户升.

2020-09-09 22:39:28 785 2

原创 CDH简介

1、Apache Hadoop 不足之处• 版本管理混乱  • 部署过程繁琐、升级过程复杂  • 兼容性差  • 安全性低2、Hadoop 发行版• Apache Hadoop  • Cloudera’s Distribution Including Apache Hadoop(CDH)  • Hortonworks Data Platform (HDP)  • MapR  • EMR  • …3、CDH能解决哪些问题• 1000台服务器的集群,最少要花费多长时间来搭建好Hadoo

2020-08-31 16:35:15 165

原创 大数据相关 各组件的参数调优

Hadoophdfs大量小文件处理1)会有什么影响(1)1个文件块,占用namenode多大内存150字节1亿个小文件150字节1 个文件块150字节128G能存储多少文件块? 128 * 102410241024byte/150字节 = 9亿文件块2)怎么解决(1)采用har归档方式,将小文件归档(2)采用CombineTextInputFormat(3)有小文件场景开启JVM重用;如果没有小文件,不要开启JVM重用,因为会一直占用使用到的task卡槽,直到任务完成才释放。JV

2020-08-15 16:16:25 522

原创 Flume 参数解析大全(包含启动参数)

flume参数:# example.conf:单节点Flume配置# 命名此代理上的组件a1.sources = r1 a1.sinks = k1 a1.channels = c1# 描述/配置源a1.sources.r1.type = netcat a1.sources.r1.bind = localhost a1.sources.r1.port = 44444# 描述接收器a1.sinks.k1.type = logger# 使用缓冲内

2020-08-11 15:51:36 1352

原创 租约协议(详细、透彻讲解)

背景和介绍缓存是计算机里广泛使用的一种技术,对降低读取延迟、网络流量和服务器负载都非常有效,但也带来了一致性(Consistency)的问题。所谓一致就是客户端总能读到最新的数据,使用缓存后有可能服务器端的数据已经被修改,但客户端仍然从缓存中读取陈旧的数据。为了保证一致性,有两种常见的解决办法,第一种是轮询(Polling),即每次读取数据时都先询问服务器数据是不是最新的,如果不是就从服务器传输新数据,这种方法需要每次读取数据时都与服务器通信。另一种方法就是回调(Callback)或者无效化(Invali

2020-08-07 21:13:41 416

原创 kafka 的事务特性

kafka事务???? 相关文章 《kafka 幂等性》与幂等性有关的另外一个特性就是事务。Kafka中的事务与数据库的事务类似,Kafka中的事务属性是指一系列的Producer生产消息和消费消息提交Offsets的操作在一个事务中,即原子性操作。对应的结果是同时成功或者同时失败。这里需要与数据库中事务进行区别,操作数据库中的事务指一系列的增删查改,对Kafka来说,操作事务是指一系列的生产和消费等原子性操作。Kafka引入事务的用途?在事务属性引入之前,先引入Producer的幂等性,它的

2020-08-07 20:18:11 163

原创 Kafka 幂等性(Exactly-Once处理数据丢失和数据重复)

Kafka 幂等性在之前的旧版本中,Kafka只能支持两种语义:At most once和At least once。At most once保证消息不会朝服,但是可能会丢失。在实践中,很有有业务会选择这种方式。At least once保证消息不会丢失,但是可能会重复,业务在处理消息需要进行去重。 Kafka在 0.11.0.0 版本支持增加了对幂等的支持。幂等是针对生产者角度的特性。幂等可以保证上生产者发送的消息,不会丢失,而且不会重复。Kafka为啥需要幂等性?Producer在生产发送

2020-08-07 20:12:08 1296

原创 SparkStreaming算子

SparkStreaming算子分为两类:transformation算子和outputOperator算子transformation算子:flatMap、count、mapToPair、map、countByValue、repartition、filter、join、union、Reduce、reduceByKey、updataStateByKey、Window、transformoutputOperator算子:print、foreachRDD、saveAsTextFile、saveAsHado.

2020-08-07 15:40:13 366

原创 spark资源调度模式

1.资源调度模式1.1 local模式(本地)运行该模式非常简单,只需要把Spark的安装包解压后,改一些常用的配置即可使用,而不用启动Spark的Master、Worker守护进程( 只有采用集群的Standalone方式时,才需要这两个角色),也不用启动Hadoop的各服务(除非要用到HDFS文件系统)。Spark不一定非要跑在hadoop集群,可以在本地,起多个线程的方式来指定。将Spark应用以多线程的方式直接运行在本地,一般都是为了方便调试,本地单机模式分三类:local: 只启动一个ex

2020-08-07 15:31:07 338

原创 Kafka Message(消息)有那几部分组成?

CRC32:4个字节,消息的校验码。magic:1字节,魔数标识,与消息格式有关,取值为0或1。当magic为0时,消息的offset使用绝对offset且消息格式中没有timestamp部分;当magic为1时,消息的offset使用相对offset且消息格式中存在timestamp部分。所以,magic值不同,消息的长度是不同的。attributes: 1字节,消息的属性。其中第0~ 2位的组合表示消息使用的压缩类型,0表示无压缩,1表示gzip压缩,2表示snappy压缩,3表示lz4压缩。第3.

2020-08-06 16:32:35 420

原创 Flink——状态管理、算子状态、状态后端、processFunction

1. flink 状态管理包含哪些?Flink 会进行状态管理,包括状态一致性、故障处理以及高效存储和访问,以便开发人员可以专注于应用程序的逻辑。2. flink 状态的类型?算子状态(Operator State)算子状态的作用范围限定为算子任务键控状态(Keyed State)根据输入数据流中定义的键(key) 来维护和访问3. 算子状态的特点?算子状态的作用范围限定为算子任务,由同一并行任务所处理的所有数据都可以访问到相同的状态状态对于同一任务而言是共享的算子状态不

2020-07-17 21:15:06 998 1

原创 Flink——window函数、时间语义、watermark 相关问答

1、window类型有哪些?(1) TimeWindowTumbling Window (滚动窗口)Sliding Window (滑动窗口)Session Window (会话窗口)Global Window (全局窗口)(2) countWindow(3) 自定义window2、window function 窗口函数有哪些?window function 定义了要对窗口中收集的数据做到计算操作,可分为两类:增量聚合函数(incremental aggregation

2020-07-17 12:04:02 101

原创 MapReduce自定义数据类型

数据类型(都实现了Writable接口)BooleanWritable 布尔类型ByteWritable 单字节数值DoubleWritable 双字节数值FloatWritable 浮点数IntWritable 整型数LongWritable 长整型Text UTF-8格式存储的文本NullWritable 空类型因为shuffle中排序依据是key,若定义的数据类型为Key,必须实现writable和comparable接口,即WritableComparabl

2020-07-17 11:25:23 321

原创 Flink——transformation过程中的问题

1. flink split流 ,select流?(拆分流&select流)Split 就是将一个DataStream分成两个或者多个DataStreamSelect 就是获取分流后对应的数据示例代码:val env = StreamExecutionEnvironment.getExecutionEnvironmentenv.setParallelism(1)val elements: DataStream[Int] = env.fromElements(1,2,3,4,5,6)/

2020-07-15 22:06:54 132

原创 Flink——执行图、并行度、任务链

执行图并行度什么是并行度?什么是stream 的最大并行度?????算子的数据传输 2种形式?任务链flink 的任务链?满足任务链的要求?????

2020-07-14 20:15:53 199

原创 Flink——任务、程序与数据流

概念:资源密集任务 非资源密集任务程序与数据流

2020-07-14 20:02:53 124

原创 Flink——任务提交流程

相关提问:flink的资源管理器有哪些?flink 为不同的环境和资源管理工具提供了不同的资源管理器,比如YARN、Mesos、K8s,以及standalone部署。

2020-07-14 19:25:33 225

原创 Flink——运行的组件有哪些?分别有什么作用?

by the way~taskManager 通过什么控制task数量?task的数量由taskManager内包含的slots的总数量决定,slot的总数量也决定了任务执行的并行度。

2020-07-14 19:13:32 380

原创 Spark—— DAG 如何划分stage?

DAG介绍DAG是什么DAG(Directed Acyclic Graph有向无环图) 指的是数据转换执行的过程,有方向,无闭环(其实就是RDD执行的流程)原始的RDD通过一系列的转换操作就形成了DAG有向无环图,任务执行时,可以按照DAG的描述,执行真正的计算(数据被操作的一个过程)DAG的边界开始:通过SparkContext创建的RDD结束:触发Action,一旦触发Action就形成了一个完整的DAG注意:一个Spark应用中可以有一到多个DAG,取决于触发了多少次A

2020-07-14 11:37:36 330

原创 Flink——flink和sparkStreaming 对比?

批处理(批量)_sparkStreaming处理完成一条数据后,将其序列化到缓存中,当缓存写满时,就持久化到本地硬盘上;在所有数据都被处理完成后,才开始将其通过网络传输到下一个节点适合有边界数据使用DataSet要求高吞吐流处理(逐个)_flink在处理完成一条数据后,将其序列化到缓存中,并立刻通过网络传输到下一个节点,由下一个节点继续处理。适合无边界数据使用DataStream要求低延迟批处理和流处理(DataSet和DataStream)最大的区别在于对时间的处理。另外

2020-07-14 11:27:41 1256

原创 Flink——有界流VS无界流

什么是有界流和无界流?有界流有定义流的开始,也有定义流的结束。有界流可以在摄取所有数据后再进行计算。有界流所有数据可以被排序,所以并不需要有序摄取。有界流处理通常被称为批处理有界流,Flink则由一些专为固定大小数据集特殊设计的算法和数据结构进行内部处理,产生了出色的性能。无界流有定义流的开始,但没有定义流的结束。它们会无休止地产生数据。无界流的数据必须持续处理,即数据被摄取后需要立刻处理。我们不能等到所有数据都到达再处理,因为输入是无限的,在任何时候输入都不会完成。处理无

2020-07-14 11:18:19 835

原创 Flink——流处理的重要特点

一、什么是Flink?官网:https://flink.apache.org/Apache Flink是一个框架和分布式处理引擎,用于对无界和有界数据流进行状态计算。能够提供毫秒级别的延迟,同时保证了数据处理的低延迟、高吞吐和结果的正确性,还提供了丰富的时间类型和窗口计算、Exactly-once语义支持,另外还可以进行状态管理,并提供了 CEP(复杂事件处理)的支持。 Flink在实时分析领域的优势,使得越来越多的公司开始将实时项目向 Flink 迁移,其社区也在快速发展壮大。二、为什

2020-07-14 11:15:35 1106

原创 hive连jdbc报错,连接不上

1、在当前服务器启动hiveserver2服务,远程客户端通过beeline连接解决办法:1)修改core-site.xml文件,加入如下选项:<!--配置成*的意义,表示任意节点使用 hadoop 集群的代理用户 root 都能访问 hdfs 集群--><property> <name>hadoop.proxyuser.root.hosts</name> <value>*</value></prop

2020-07-11 10:14:53 909

原创 Spark——知识梳理(一)

一、 资源管理工具二、 spark资源调度?1.Spark-standaloneStandalone的模式下,spark的资源管理和调度是自己来管理和调度的,主要由master来管理。2.Spark-yarnResourceManagerNodeManagerApplicationMasterContainer(资源)TaskHadoop集群上面 Yarn执行任务的流程:Client提交任务给resourceManager,resourceManager会选择一台机器开启一个conta

2020-06-30 19:53:42 162

原创 MapReduce中大量小文件是如何产生的?如何优化?

在分布式的架构中,分布式文件系统HDFS,和分布式运算程序编程框架mapreduce。HDFS:不怕大文件,怕很多小文件mapreduce :怕数据倾斜那么mapreduce是如果解决多个小文件的问题呢?mapreduce关于大量小文件的优化策略(1) 默认情况下,TextInputFormat对任务的切片机制是按照文件规划切片,不管有多少个小文件,都会是单独的切片,都会交给一个maptask,这样,如果有大量的小文件就会产生大量的maptask,处理效率极端底下(2)优化策略最好的方法:在

2020-05-22 15:58:35 721

原创 大数据技术之Hadoop(HDFS)

第1章 HDFS概述1.1 HDFS产出背景及定义1.2 HDFS优缺点1.3 HDFS组成架构1.4 HDFS文件块大小(面试重点)第2章 HDFS的Shell操作(开发重点)1.基本语法bin/hadoop fs 具体命令 OR bin/hdfs dfs 具体命令dfs是fs的实现类。2.命令大全[jinghang@hadoop102 hadoop-2.7.2]$ bin/hadoop fs[-appendToFile <localsrc> ... &l

2020-05-21 10:21:32 163

原创 SparkStreaming+Kafka

SparkStreaming+Kafka 维护消费者offsetSparkStreaming+Kafka Receiver 模式SparkStreaming+Kafka Direct 模式

2020-03-31 10:40:01 126

原创 kafka的消息存储和生产消费模型

kafka的消息存储和生产消费模型• 一个topic分成多个partition• 每个partition内部消息强有序,其中的每个消息都有一个序号叫offset• 一个partition只对应一个broker,一个broker可以管多个partition• 消息直接写入文件,并不是存储在内存中• 根据时间策略(默认一周)删除,而不是消费完就删除• producer自己决定往哪个part...

2020-03-29 16:31:09 299

原创 SparkStreaming接受数据原理

2020-03-18 11:10:31 105

原创 SparkStreaming与Storm的区别

2020-03-18 11:09:09 96

原创 kafka知识点总结

1.什么是kafka? (开放性问题)Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者在网站中的所有动作流数据。 这种动作是在现代网络上的许多社会功能的一个关键因素。 这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。2.流式计算?strom sparkStreaming flink流式计算:数据实时产生、数据实时传输、数据实时计算、实时展示代表技术:...

2020-02-25 22:21:39 336

原创 Scala的符号入门

Spark是由Scala编写的。Spark作为一款十分易用高效的大数据框架使用越来越广泛,Scala也随之有更多的人去学习。语言相通,相信有python、java基础的程序员学习Scala并没有太大的难度。但是Scala程序中奇奇怪怪的操作符却让人十分挠头。Scala的教程大多都是从变量定义、函数、类等入门,我们直接从Scala符号入门,直接从代码中体会Scala的特性。1. 怪符 &l...

2020-02-20 12:25:56 110

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除