`FUTURE`-CSDN博客

假设一个食堂的自助取餐流水线是一个流处理系统，每个就餐者前来就餐是它需要处理的事件，从就餐者到达食堂到他拿到所需菜品并付费离开的总耗时，就是这个就餐者的延迟。需要注意的是，吞吐除了与引擎自身设计有关，也与数据源发送过来的事件数据量有关，有可能流处理引擎的最大吞吐量远小于数据源的数据量。如果排队期间仍然有大量数据进入缓存，很可能超出系统的极限，就会出现反压（Backpressure）问题，这时候就需要一些优雅的策略来处理类似问题，否则会造成系统崩溃，用户体验较差。综上，延迟和吞吐是衡量流处理引擎的重要指标。

2023-10-16 15:38:20 701

原创浅谈大数据之Flink

1.3.2小节中提到，Spark是“一统江湖”的大数据处理框架，Spark Streaming采用微批次（mini-batch）的思想，将数据流切分成一个个小批次，一个小批次里包含多个事件，以接近实时处理的效果。具体而言，Flink的优点如下。Flink主要面向流处理，如果说Spark是批处理界的“王者”，那么Flink就是流处理领域冉冉升起的“新星”。流处理并不是一项全新的技术，在Flink之前，不乏流处理引擎，比较著名的有Storm、Spark Streaming，如图展示了流处理框架经历的三代演进。

2023-10-16 14:03:49 860

原创浅谈大数据之Why

大数据：顾名思义，就是拥有庞大体量的数据。业界将大数据的特点归纳为5个V。1.Volume：指数据量大，数据量单位从TB，PB，EB，ZB，YB2.Velocity：指数据生产速度快，数据要求的处理速度更快和时效性强，因为时间及时金钱，更快的数据处理速度可让我们基于最新的数据做出更加实时的决策。3.Variety：指数据类型繁多。数据可以是数字，文字，图片，视频等不同形式数据源可能是社交网络，视频网站，可穿戴设备以及各类传感器。

2023-10-16 11:42:54 389

原创 Flink内核源码解析--Flink中重要的工作组件和机制

这是因为Flink节点与节点之间，组件与组件之间通信采用的是Akka，但是数据交换，比如算子与算子之间的数据交换采用的是Netty，比如Flink中有JobManager，还有TaskManager从节点，而JobManager主节点里面有一些组件，比如JobMaster，Dispatcher等，组件与组件之间通信采用的是Akka，而Netty是算子与算子之间，比如Map算子后面跟着Filter,Filter后面跟着reducekeyby等操作这些算子之间采用的是Netty来通信的。

2023-08-16 21:55:55 1054

原创 Flink-----Yarn应用模式作业提交流程

在Yarn当中又分为Session，PerJob，Application，建议和推荐使用独立集群的，其中就包含PerJob 和Application，但是1.17版本的Flink已将PerJob标记为过时，并且Application可以解决PerJob的一些痛点，减轻客户端的一些压力，所以需要重点了解Yarn应用模式的作业提交流程。

2023-08-16 02:09:14 1033 1

原创 Flink-----Standalone会话模式作业提交流程

注意：物理执行图(PhysicalGraph)，它执行一个执行效果，它并不是一个具体的数据结构，前面的三中图在源码中都是能找到的，唯独这个物理图不是，最重要的图是执行图(ExecutionGraph)，是作业图(JobGraph)的并行化版本，是调度层最核心的数据结构，它知识对并行子任务进行了拆分，明确了任务间数据的传输方式。逻辑流图(StreamGraph) -> 作业图(JobGraph) ->执行图(ExecutionGraph) -> 物理图(Physical Graph)

2023-08-16 01:25:34 973

原创 PMP面试内容

明确当前项目是否偏离既定轨道（范围是否有镀金、遗漏，进度是否落后，后续资源是否需要调整，决断是否合理），2、培训，培训有利于提高士气，提高团队对项目、对公司的认同感、归属感。团队中必须至少要有一个技术过硬的队员，分配重要但不紧急的任务，在工期上安排一定的管理储备时间（有一定的指导作用，同时具有机动应急作用）。1、首先要做的还是培训（磨刀不误砍柴工），线上线下，组员分享或视频录像。对于软件生命周期而言：设计、需求调研、测试（人月神话：1/3计划，1/6编码，1/4单体测试，1/4系统测试。

2023-07-02 21:20:42 355

原创面试经典案列-----行列转换

【代码】面试经典案列-----行列转换。

2023-05-03 12:34:24 127

原创经典面试题整理----Kafka如何保证数据不会丢失以及不会重复消费问题

经典大数据面试题整理

2022-06-30 03:16:07 689

原创 Impala集群搭建报错,主节点启动成功,但是worker节点的impalad启动失败

1.报错信息如下impalad.ERROR:Running on machine: node1Log line format: [IWEF]mmdd hh:mm:ss.uuuuuu threadid file:line] msgE0124 10:34:09.324137 30280 logging.cc:147] stderr will be logged to this file.2022-01-24 10:34:10,077 INFO util.JvmPauseMonitor: Starti

2022-01-24 14:17:28 1578

原创 IDEA连接远程环境进行本地debug

IDEA连接远程环境进行本地debug

2022-01-13 15:10:43 2143

原创执行shell脚本报错未预期的文件结尾

这个脚本是我在windows电脑上写的脚本,然后直接放到Linux服务器去执行报这个错这个错可以通过两个方面去解决解决办法一:需要给dos文件格式转成unixyum install dos2unixdos2unix 文件名然后在执行脚本就可以了解决办法二:在notpad++上将脚本文件改为unix即可...

2022-01-05 10:30:26 1046

原创 Linux 命令神器：lsof

简介lsof(list open files)是一个列出当前系统打开文件的工具。在linux环境下，任何事物都以文件的形式存在，通过文件不仅仅可以访问常规数据，还可以访问网络连接和硬件。所以如传输控制协议 (TCP) 和用户数据报协议 (UDP) 套接字等，系统在后台都为该应用程序分配了一个文件描述符，无论这个文件的本质如何，该文件描述符为应用程序与基础操作系统之间的交互提供了通用接口。因为应用程序打开文件的描述符列表提供了大量关于这个应用程序本身的信息，因此通过lsof工具能够查看这个列表对系统监测以及

2021-12-31 16:41:18 655

原创优雅的使用awk获取文件信息

案例1: 读取文件某一列的字段为0的有多少条数据文件分隔符是|+|,需要转义awk -F '\\|\\+\\|' '$6==0 {print $6}' xxx.txt | wc -l就可以获取出来第六列数值为0的有多少条数据

2021-12-24 09:36:20 811

原创 shell脚本中$#、$0、$@等含义

$# 传给脚本的参数个数$0 脚本本身的名字$1 传递给该shell脚本的第1个参数$2 传递给该shell脚本的第2个参数$@ 传给脚本的所有参数的列表$* 以一个单字符串显示所有向脚本传递的参数，与位置变量不同，>参数可超过9个$$ 脚本运行的当前进程ID号$? 命令执行结果反馈，0表示执行成功，其余数字表示执行不成功。举例：首先来看一个脚本：#!/bin/shecho "\$#:$#"echo "\$0:$0"echo "\$1:$1"echo "\$2:$2".

2021-12-15 14:45:38 4240

原创 Flink专栏_1

Slot是物理的概念，是静态的概念，一旦flink启动以后，tm就制定了slot数量，不能改变parallelism是动态的概念，可以设置并行度的优先级，可以设置算子级别的或者应用程序全局的并行度、递交作业时设置并行度、使用flink部署环境默认配置文件中指定的并行度优先级从前往后，越来越低Flink1.13.1其中一些比较重要的修改包括：1.被动扩缩容2.分析应用的性能3.瓶颈检测与反压监控4.Web UI 中的 CPU 火焰图5.State 访问延迟指标6.通过Savepoint..

2021-12-15 00:57:11 111

原创 Log4j漏洞及解决方案，亲测

log4j漏洞解决方案，亲测

2021-12-14 13:59:45 10895

原创 Flink读取文件目录问题解决方案,目录下的文件在上传中产生的临时文件报错等问题

Flink读取文件目录：因为目录下的文件可能会不断新增，在新增过程中文件处于传输阶段会出现比如01.data文件正在上传，在hdfs中显示的是01.data._COPYING_文件，只有真正上传完成后才能读取，而不设置过滤器的话就会报错，会提示._COPYING_文件不存在，所以像这样的临时文件需要我们过滤掉, 目前默认过滤器已经满足了我们的需求：方案如下/** * 2.流处理: 监听并读取hdfs文件夹目录下的所有文件 * * @throws Exception

2021-11-23 10:55:03 2341

原创 Scala_循环守卫

基本语法//就是在for推导式后面加了一个if判断,如果i=2直接跳过,(实现java中的continue用法)//就是把for循环体里面的if判断提到了推导里面,这样循环代码块会逻辑非常简洁,一目了然for(i <- 1 to 10 if i != 2) println(i)if就相当于是守门员,我们要按照这个条件去做判断,如果不符合条件的话就直接拒之门外,当天代码块就不做执行了,这个就特别像我们在java中for循环中用到的continue,在scala中用循环守卫来替代了...

2021-06-13 16:29:41 1540 1

原创 Scala源码解析---＞继承App

object AppTrait extends App { println("hello scala") //()=>{ // println("hello scala") //}}可以看到在这个类中直接可以可以输出,看源码得知App中有main方法,那么main方法是什么时候将这个println("hello scala)加载到main中的呢?/* * Scala (https://www.scala-lang.org) * * Copyright EPFL and

2021-06-10 21:24:01 387

原创 Scala语言的之基本语法

Scala数据类型Scala中一切数据都是对象, 都是Any的子类.Scala中数据类型分为两大类: 数值类型(AnyVal), 引用类型(AnyRef), 不管是值类型还是引用类型都是对象.Scala数据类型仍然遵守, 低精度的值类型向高精度值类型,自动转换(隐式转换)Scala中的StringOps是对Java中的String增强Unit: 对应中的void, 用于方法返回值的位置, 表示方法没有返回值. Unit是一个数据类型, 只有一个对象就是(). Void不是数据类型, 只是一个关

2021-06-09 23:14:25 258

原创 Nosql之_Redis的高频面试题

在应用程序和MySQL数据库中建立一个中间层：Redis缓存，通过Redis缓存可以有效减少查询数据库的时间消耗，但是引入redis又有可能出现缓存穿透、缓存击穿、缓存雪崩等问题。1.Redis的缓存穿透缓存穿透：key对应的数据在数据源并不存在，每次针对此key的请求从缓存获取不到，请求都会到数据源，从而可能压垮数据源。一言以蔽之：查询Key，缓存和数据源都没有，频繁查询数据源比如用一个不存在的用户id获取用户信息，无论论缓存还是数据库都没有，若黑客利用此漏洞进行攻击可能压垮数据库。

2021-05-30 23:03:54 182

原创 NoSQL之_Redis的持久化

Redis 的持久化由于redis是一个内存数据库，所有的数据都是保存在内存当中的，内存当中的数据极易丢失，所以redis的数据持久化就显得尤为重要，在redis当中，提供了两种数据持久化的方式，分别为RDB以及AOF，且Redis默认开启的数据持久化方式为RDB方式。1.Redis的RDB持久化方案 redis提供的一种基于快照机制实现的持久化方案, 而快照就类似于照相机, 会将一个服务器某个时刻的一个状态整体保存下来, 快照文件一般都非常的小,只有几kb左右

2021-05-30 22:40:32 118

原创 NoSQL之_Redis的相关操作

1.Redis的数据类型的介绍redis当中一共支持五种数据类型, 分别是:string字符串list列表set集合hash表zset有序集合通过这五种不同的数据类型，可以实现各种不同的功能，也可以应用在各种不同的场景。...

2021-05-30 20:12:08 126

原创 NoSQL之_Redis介绍

NoSQL之_Redis01.NoSQL简介:1).NoSQL的特点 (应用场景)2).常见的NoSQL数据库02.Redis的基本介绍1).什么是redis?2).Redis的应用场景3).Redis的应用场景4).Redis的特点01.NoSQL简介:1).NoSQL的特点 (应用场景)适用的场景高并发的读写海量数据的读写操作高可扩展性速度快不适用的场景需要事务支持基于sql的结构化查询存储吗, 处理复杂的关系, 需要即席查询(用户自定义查询条件的查询)2).常见的NoSQ

2021-05-30 20:04:22 184

原创 Hive相关资料

1.Hive外部表与内部表被External修饰的为外部表(external table),反之为内部表(managed table) 默认情况下是内部表(MANAGED_TABLE)内部表数据由Hive自身管理, 外部表数据由HDFS管理内部表数据存储的位置是hive.metastore.warehouse.dir（默认：/user/hive/warehouse)外部表(External Table) 创建的时候需要加上External关键字, 并指定存储位置;删除内部表会把元数据以及存储数据

2021-05-28 17:02:27 452

原创 Hive的相关优化点

文章目录1.Hive相关函数说明2.Hive的基本优化3.Hive的小文件合并优化(CM上配置)1.Hive相关函数说明if函数格式: if(boolean testCondition, T valueTrue, T valueFalseOrNull)说明: 当参数1的条件成立时候, 返回参数2的数据, 否则返回参数3的数据nvl函数:格式: nvl(T value, T default_value)说明: 空值替换, 当参数1为null的时候返回参数2的数据,否则返回参数1的数据

2021-05-27 23:22:06 587

原创 Linux高级命令和Shell编程

1.Linux高级命令该章节的所有操作都在/export/data/shell目录进行，请提前创建该目录.mkdir -p /export/data/shell/1.1.重定向命令1、重定向>Linux 允许将命令执行结果重定向到一个文件，本应显示在终端上的内容保存到指定文件中。如：ls >test.txt ( test.txt 如果不存在，则创建，存在则覆盖其内容 )。案例：将/目录下文件的详情保存到test.txt文件中ll / > test.txt查看文件内容：

2021-05-27 08:54:29 472

原创 Zookeeper集群一致性原理(强一致性)

Zookeeper集群一致性原理(强一致性)强一致性,弱一致性,最终一致性概念o强一致性概念步骤1修改了userName为beidouxing,步骤2读到的结果也一定是为beidouxing实现方式omysql主从复制非常迅速,同步o锁机制,必须等待mysql1数据同步到mysql2的时候,这个时候才可以读取o注意:在分布式领域中是很难保证强一致性o弱一致性概念允许数据库之间同步存在短暂延迟,步骤2读取userName内容为future而不必为beidouxing;这种我们称作为弱

2021-05-26 16:12:58 2686

原创电脑连不上网络, 并且宽带连接是灰色的

电脑连不上网络, 并且适配器选项中宽带连接是灰色的网上找了好多资料没解决,网卡驱动没问题,如果是网卡驱动问题导致的可以更新或者还原网卡驱动.我来说一下我亲测没问题的方法:1.我先把以太网2禁用,右击禁用即可2. 然后把宽带连接右击将设置为默认连接这个钩去掉3. 再将以太网2启用(右击可以看到)4. 再尝试连接宽带即可连接上....

2021-05-25 11:17:13 2901

原创 SNAPPY和snappy之错误

INFO [AsyncDispatcher event handler] org.apache.hadoop.mapreduce.v2.app.job.impl.TaskAttemptImpl: Diagnostics report from attempt_1621817673844_0011_m_000000_0: Error: java.lang.RuntimeException: org.apache.hadoop.hive.ql.metadata.HiveException: Hive Runti

2021-05-24 14:56:58 810

空空如也

空空如也