自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(30)
  • 收藏
  • 关注

原创 一文带你看懂SAP-HANA的基本架构与原理

创作不易,希望大家一键三连支持!!!♥♥♥创作不易,希望大家一键三连支持!!!♥♥♥创作不易,希望大家一键三连支持!!!♥♥♥。

2024-07-16 17:04:04 937

原创 Flink框架(一)---概念、运行模式、运行架构

Apache Flink是一个框架和分布式处理引擎,用于对无界和有界数据流进行有状态计算。有界流与无界流的区别:(1)有界流有定义流的开始,也有定义流的结束;无界流只定义了流的开始没有定义流的结束。(2)有界流可以在获取所有数据后再计算无界流必须在获取数据后立刻处理计算。(3)有界流也叫做批处理无界流也叫做流处理。有状态流处理:把流处理需要的额外数据保存成一个“状态”,然后针对这条数据进行处理,并且更新状态。

2023-11-10 20:16:07 996

原创 一文带你看懂MySQL事务的深入浅出

注:本文主要论述了MySQL事务的ACID特性及数据库并发场景下容易产生的脏读、不可重复读、幻读问题,四种隔离级别的详细介绍等。创作不易,希望大家一键三连支持!!!♥♥♥ 创作不易,希望大家一键三连支持!!!♥♥♥创作不易,希望大家一键三连支持!!!♥♥♥ 标题一. MySQL事务1.1 定义1.2 特性1.3 隔离级别1.4 MySQL的默认RR隔离级别一. MySQL事务1.1 定义事务就是一组原子性的SQL查询(一个独立的工作单元),事务内的语句,要么全部执行成功,要么全部执行失败,

2023-09-12 15:39:08 161

原创 3k字带你了解Hadoop源码,一看就懂(一)

本系列将持续更新,希望大家一键三连支持!!!♥♥♥本系列将持续更新,希望大家一键三连支持!!!♥♥♥本系列将持续更新,希望大家一键三连支持!!!♥♥♥。

2023-08-26 18:53:28 156

原创 5K字带你看懂Hadoop生态下的生产调优方式(一)

本系列将持续更新,希望大家一键三连支持!!!♥♥♥本系列将持续更新,希望大家一键三连支持!!!♥♥♥本系列将持续更新,希望大家一键三连支持!!!♥♥♥。

2023-08-25 17:03:10 129

原创 2k字带你彻底搞懂Java中的各种锁!

本篇针对Java中常见的各种锁进行了简单总结,方便更加容易的理解锁机制。在引入锁这个概念之前,我们要明确一点,即为什么要引入锁,锁用来干什么?首先,锁的引入是为了解决多线程安全问题(1)原子性(2)可见性(3)有序性假设主内存中有一个int类型的i变量,初始值为0,同时开启2个线程Thread 1和Thread 2,两个线程同时执行i++操作,那么最终的结果是多少?最终的结果不确定,而是一个范围i≤2,为什么会这样?原因就在于i++操作并非一个原子操作,i++在Java里我们认为就是1个自增操作。

2023-07-17 21:06:39 133

原创 一文带你看懂DataX离线同步工具(图文并茂,看完就懂)

DataX是阿里巴巴开源的一个异构数据源离线同步工具,致力于实现包括关系型数据库MySQL、Oracle 等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。阿里云DataX源码用户只需根据自己同步数据的数据源和目的地选择相应的Reader和Writer,并将 Reader 和 Writer 的信息配置在一个 json 文件。

2023-06-19 19:05:48 20216 3

原创 Zookeeper学习---(part-1)

Zookeeper是一个开源的分布式的,为分布式框架提供协调服务的 Apache 项目。

2023-06-13 20:49:35 83

原创 算法数据结构---四数之和

原因是该方法确实返回了一个ArrayList对象,但。本篇主要是在学习哈希表结构时,对一些习题的练习。,当向这个List中。该ArrayList。

2023-06-12 16:01:44 115

原创 算法数据结构---哈希表练习2

由于互为字母异位词的两个字符串包含的字母相同,因此两个字符串中的相同字母出现的次数一定是相同的,故可以。分类涉及了不同,因此我们可以借助。

2023-06-07 17:16:01 56

原创 算法数据结构---哈希表练习1

如下论述和代码,我们均假设两个字符串。

2023-06-07 15:32:58 49

原创 算法数据结构---环形链表

slow指针是不是也永远不可能再和fast指针相遇呢?fast指针每次走两节点,slow指针每次走一节点,那么相当于是。由于fast指针一次走2节点,slow一次走1节点,那么。,如果这样fast和slow在途中相遇,说明这个。,这是毋庸置疑的,因为是一直沿着直线走下去的。我们可以这样定义fast和slow指针,其中。,我们仍然可以这样定义两个指针,只不过此时的。化简一下得到:x=(n-1)(y+z)+z。,由于不是单步单步去逼近slow,所以有。同时,由于x=z,说明从。,1节点的速度追赶相当于是。

2023-06-06 15:27:19 58

原创 算法数据结构---链表相交

【代码】算法数据结构---链表相交。

2023-06-06 14:36:32 51

转载 算法数据结构---删除链表的倒数第N个结点

所指向的节点就可以了。

2023-06-05 15:43:29 116

原创 算法数据结构---两两交换链表节点

当链表元素个数为奇数个时,如此例当中,当交换完3-4后,cur指针指向值为5的前一个节点,此时cur.next不为null;故而我们的循环进行的条件是。,值为2的前一个节点就是值为1的节点,那么值为1的前一个节点是谁呢?指向头节点head. 接下来开始进行交换,现在我们的链表元素个数共5个,此处我们两两交换的。,按照链表的结构,如果想交换1-2,那么必然要找到值为1、值为2的。的方式来简化我们的链表元素交换后的指向,假设有这样一个。个时,根据cur指针的定义,仅当。的原因,一旦交换条件的顺序,假设。

2023-06-05 11:03:20 132

原创 Flume学习---(part-2)

, LoadBalancingSinkProcessor和FailoverSinkProcessor 对应的是 Sink Group,LoadBalancingSinkProcessor 可以实现负载均衡的功能,FailoverSinkProcessor 可以错误恢复的功能。这种模式是我们最常见的,也非常实用,日常 web 应用通常分布在上百个服务器,大者甚至上千个、上万个服务器。起来了,从最初的 source 开始到最终 sink 传送的。,如果该目录不存在,并不会创建新的目录。

2023-05-29 19:52:16 93

原创 Flume学习---(part-1)

Flume是 Cloudera 提供的一个高可用的,高可靠的,分布式的海量日志采集聚合和传输的系统。Flume 基于流式架构,灵活简单。

2023-05-25 17:56:59 100

原创 Kafka学习---(part-1)

Kafka最新定义 :Kafka是 一个开源的分布式事件流平台(Event Streaming Platform),被数千家公司用于高性能数据管道流分析数据集成和关键任务应用。1)需求例如我们实现一个分区器实现,发送过来的数据中如果包含 fusir,就发往 0 号分区,不包含fusir,就发往 1 号分区。2)实现步骤(1)定义类实现 Partitioner 接口。(2)重写 partition()方法。/*** @param topic 主题* @param key 消息的 key。

2023-05-24 20:24:56 114

原创 电商数仓项目---日志聚集Flume的群起群停脚本

在Application服务启动的状况下再次调用jps查看进程状态,发现该服务已经停止,到此为止我们是否完成了呢?,即只要grep后面的参数出现在了被圈的部分当中就可以被过滤出来,那么我们就需要找一个。,得到这个ID号后,我们是不是可以在命令前直接加kill -9 来杀死进程呢?的方式找到我们想停止的进程状态信息,可以看到我们想要。,因此我们想通过一定的linux指令实现我们的要求。,但是随时间改变,进程号也会改变,也就是说。文本文件,文件内容如下,我们想以其中的。,这样就不会产生之前的问题了,这里。

2023-05-22 17:10:22 291

原创 Hadoop框架---Yarn工作机制、调度器与调度算法

•公平调度器设计目标是:在时间尺度上,所有作业获得公平的资源。是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的。为了防止同一个用户的作业独占队列中的资源,该调度器会对。:每个队列可配置一定的资源量,等运算程序则相当于运行于。1)与容量调度器相同点。,则其他队列借调的资源。2)与容量调度器不同点。,生产环境很少使用;

2023-05-18 17:33:17 245

原创 Hadoop框架---Join应用与数据清洗(ETL)

1)输入数据接口:InputFormatTextInputFormat(按行读取)一次读一行文本,然后将该行的起始偏移量作为key行内容作为value返回。(3)CombineTextInputFormat 可以把多个小文件合并成一个切片处理,提高处理效率。2)逻辑处理接口:Mappermap()用户业务逻辑setup()初始化cleanup ()关闭资源3)Partitioner 分区(1)有默认实现,逻辑是根据 key的哈希值和numReduces来返回一个分区号;

2023-05-15 18:26:45 394

原创 Hadoop框架---MapReduce框架原理(下)

1)需求过滤输入的 log 日志,包含 atguigu的网站输出到不包含 atguigu的网站输出到。(1)输入data(2)期望输出数据2)需求分析3)案例实操(1)编写 LogMapper 类//map不需要分割 也不需要其他操作 直接输出 context . write(value , NullWritable . get());} }(2)编写 LogReducer 类。

2023-05-11 16:46:45 97

原创 Hadoop框架---MapReduce框架原理(中)

对于MapTask,它会将处理的结果暂时放到环形缓冲区中,

2023-05-08 17:24:03 191 1

原创 Hadoop框架---MapReduce框架原理(上)

(7)合并成大文件后,Shuffle 的过程也就结束了,后面进入 ReduceTask 的逻辑运算过程(从文件中取出一个一个的键值对 Group,调用用户自定义的 reduce()方法)CombineTextInputFormat 用于小文件过多的场景,它可以将多个小文件从逻辑上规划到一个切片中,这样,多个小文件就可以交给一个 MapTask 处理。(1)Shuffle 中的缓冲区大小会影响到 MapReduce 程序的执行效率,原则上说,缓冲区越大,磁盘 io 的次数越少,执行速度就越快。

2023-05-06 19:13:31 237 1

原创 Hadoop框架---Hadoop序列化

序列化就是把内存中的对象转换成字节序列(或其他数据传输协议)以便于存储到磁盘(持久化)和网络传输。反序列化就是将收到字节序列(或其他数据传输协议)或者是磁盘的持久化数据转换成内存中的对象。在企业开发中往往常用的基本序列化类型不能满足所有需求,比如在 Hadoop 框架内部传递一个bean 对象,那么该对象就需要实现序列化接口。具体实现 bean 对象序列化步骤如下 7 步。(1)必须实现 Writable 接口(2)super();(3)重写序列化方法(4)重写反序列化方法(5)

2023-05-05 18:56:49 339 1

原创 Hadoop框架---MapReduce概述

MapReduce是一个分布式运算程序的编程框架,其核心功能为把用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序并发运行在Hadoop集群上。

2023-05-04 19:36:31 972

原创 Hadoop框架---HDFS的读写流程

为单位,dn1 收到一个 Packet 就会传给 dn2,dn2 传给 dn3;dn1 每传一个 packet。(8)当一个 Block 传输完成之后,客户端。请求上传文件,NameNode。数据,dn1 收到请求会继续。,将这个通信管道建立完成。上传第一个 Block(dn2 调用 dn3。Packet 为单位。

2023-05-03 20:30:54 140 1

原创 Hadoop框架---HDFS的Shell命令操作

其有很多命令,但在生产环境中我们经常使用的命令并没有那么多,因此需要时再回头查阅上图中的命令即可。put命令和copyFromLocal命令有着相同的复制效果,所以我们。这里我们把3台服务器各自对应的节点都打开了,为了方便后续测试。在使用shell命令前,一定要确保我们的Hadoop。自由选择以上任意一种语法格式。跳转到Web端的HDFS,处于。

2023-04-27 18:49:44 1947 1

原创 Hadoop框架---HDFS文件块

比如,当遍历集群中的block块,直到找到我们想要的block,花费的寻址时间为10ms,那么此时传输时间=10ms/0.0.1=1000ms=1s。,块的大小可以通过配置参数(dfs.blocksize)来规定,默认在。,那么如果后续要查找该文件的话,由于要找该文件对应的100个块,这将会。,那么一般的小文件可能都会被存储在同一个块中,显然。决定,某些公司使用的硬盘好,传输速率高,比如。,导致程序在处理这块数据时,会非常慢。,程序一直在寻找块的开始位置;(1)HDFS的块设置。不是整数,计算机中的。

2023-04-26 18:27:52 404 2

原创 Hadoop框架-HDFS-客户端API操作

(因为后续我们把关闭对象的操作也封装到了类中的另一方法内,关闭时需要调用该对象)接下来便可以编写代码了,为了方便后续使用,我们把。注意这里我们为mkdirs方法传入的参数仅为1个。命令把FileSystem对象升级为类中的一个。执行,所以只需要写需要执行的操作的代码即可。如果进行校验,则该crc文件不会产生。方法(获取客户端FileSystem对象)方法(关闭客户端FileSystem对象)服务器上,并且HDFS在hadoop的。同样,关闭资源的操作我们也封装到一个。当然,在执行以上操作前,首先要确保。

2023-04-24 21:00:46 907 4

中国光谷·“华为杯”第十九届中国研究生数学建模竞赛F题论文

中国光谷·“华为杯”第十九届中国研究生数学建模竞赛F题论文

2023-07-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除