自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(30)
  • 收藏
  • 关注

原创 ip地址转换成数字、二叉树划分方法

【代码】ip地址转换成数字、二叉树划分方法。

2023-05-30 16:23:40 196

原创 sparkSql

Spark SQL是Spark用来处理结构化数据构建在SparkCore基础之上的一个基于SQL的计算模块。具有DSL和SQL两种查询方式。DSL:调用算子进行数据分析,对编程能力有要求。SQL:纯sql语句,使用之前,要将数据注册成为一张表。

2023-05-24 15:36:16 176

原创 Spark共享变量

用来同步work中的计算结果到Driver中。

2023-05-22 17:02:22 167

原创 Spark中的持久化(缓冲)以及检查点机制

跨操作在内存中持久化(或缓冲)数据。当持久化RDD时,将每个节点的计算的所有分区存储在内存中,为了是数据的重用。再次调用的时候不需要重新计算,速度更快。可以使用persist()和cache()两种方方将RDD标记为持久化。第一次动作中计算时,它将保存在节点的内存中。Spark的缓冲是容错的,当RDD分区丢失的时候,可以使用最初创建缓冲位置调用重新计算。cache是调用了persist的无参缓冲方法。

2023-05-22 16:26:01 201

原创 NameNode如何处理Datanode的故障

Datanode会定期向NameNode发送心跳信号,告知自己的状态和存储容量等信息。如果NameNode连续若干次没有收到某个Datanode的心跳信号,就会将该Datanode标记为故障节点。

2023-05-19 10:06:34 684

原创 Sqoop在导入数据的时候数据倾斜如何处理

可以通过增加Sqoop导入任务的并行度来减少数据倾斜问题。可以通过增加map数或者使用--split-by参数指定合适的列进行切分数据,从而提高导入任务的并行度。

2023-05-19 09:44:25 478

原创 Udf/udtf/udaf的实现及使用场景

UDF可以用于字符串处理、日期处理、数值计算等方面。UDF的实现可以使用Java、Python、Scala等编程语言。UDAF可以用于求平均值、求最大值、求最小值等场景。UDAF的实现可以使用Java、Python、Scala等编程语言。UDTF的实现可以使用Java、Python、Scala等编程语言。UDAF可以用于求平均值、求最大值、求最小值等场景。例如,求某个商品的平均销售额、求某个地区的最高温度、求某个部门的最低工资等。UDF可以用于字符串处理、日期处理、数值计算等场景。

2023-05-19 09:31:12 411

原创 MapReduce工作流程及Shuffle

执行自己编写的map函数,Map过程开始处理,MapTask会接收输入分片,通过不断的调用map方法对数据进行处理,处理完毕后,转换为新的<key,value>键值对输出.格式化操作:将划分好的分片( split )格式化为键值对<key,value>形式的数据,其中, key 代表偏移量, value 代表每一行内容。环形缓冲区到达一定阈值(环形缓冲区大小的80%)时,会将缓冲区中的数据溢出本地磁盘文件,这个过程会溢出多个文件,多个溢写文件会被合并成大的溢写文件。一、分片、格式化数据源。

2023-05-15 17:09:32 316

原创 RDD操作.3

first获取元素中的第一个元素。take获取元素中的前N个元素。对算子进行聚合,风险较大,一般结合filter使用。reduce对一个rdd执行聚合操作,并返回结果。按分区循环执行,一般用于分区保存,效率较高。对元素先进行排序,然后获取前N个元素。主要是用于算子的遍历输出。统计RDD中元素的个数。统计Key出现的次数。保存文件到指定的位置。

2023-05-15 15:30:26 62

原创 RDD操作.2

用func先对数据进行处理,按照处理后的数据比较结果排序第一个参数为以哪个参数排序,第二个为是否为正序排序,第三个参数为去值范围。

2023-05-15 15:18:16 67

原创 RDD操作.1

对分区进项可以操作,可以合并分区,coalesce(numPartition, shuffle=false),不进行shuffle。增大分区 coalesce(numPartition, shuffle=true),会重新分区,进行shuffle。映射,对RDD集合中的每个元素计算,然后返回一个新的RDD集合,里面元素的个数不会变。对RDD集合中的每个元素进行计算,然后扁平化输出,构成一个新的RDD。对两个RDD数据进行联合,是一个窄依赖,可以合并数据和分区。

2023-05-11 20:07:05 58

原创 spark知识

为了防止主节点发生单点故障的问题。

2023-05-09 20:21:59 35

原创 Spark及RDD总结

针对列表当中的每一个元素进行操作,操作完成后返回一个新的列表,操作之 前是多少个元素,操作之后还是多少个元素,不会增加,不会减少。2.Spark提供超过80多个高阶算子函数,来支持对数据集的各种各样的计算,使用的时候,可 以 使用java、scala、python、R,非常灵活易用。一个集成离线计算,实时计算,SQL查询,机器学习,图计算为一体的通用的计算框架。窄依赖:父RDD当中的一个分区只能被子RDD当中一个分区所依赖。

2023-05-08 16:58:29 131

原创 yarn的工作流程及调度器

1.Mr程序提交到客户端所在的节点。2.Yarnrunner向Resourcemanager申请一个Application。3.rm将该应用程序的资源路径返回给yarnrunner。4.该程序将运行所需资源提交到HDFS上。5.程序资源提交完毕后,申请运行mrAppMaster。6.RM将用户的请求初始化成一个task。7.其中一个NodeManager领取到task任务。8.该NodeManager创建容器Container,并产生MRAppmaster。

2023-04-29 10:08:47 174

原创 Kafka

会根据 seq 重 新添加到队列的合适位置,并把 max.in.flight.requests.per.connection 设为。情况下 max.in.flight.requests.per.connection。replica.lag.time.max.ms= 600000# 如果网络不好。败,就会无限次重试,保证数据必须成功的发送给两个副本,如果做不到,就不停。的重试,除非是面向金融级的场景,面向企业大客户,或者是广告计费,跟钱的计。官网有数据表明,同样的磁盘,顺序写能到。

2023-04-18 14:35:51 125

原创 Flume

尝试提交的次数远远大于最终成功的次数,说明。用 Event intercept(Event event)Replicating:默认选择器。功能:将数据发往下一级所有通道。最好设置一致,减少内存抖动带来的性能影响,如果设置不一致容易导。时间戳拦截器建议使用。如果不用需要采用延迟。Multiplexing:选择性发往指定通道。(2)找朋友:增加服务器台数。(2)时间戳拦截器:主要是解决零点漂移问题。主要是内存不够导致的。过多的降低传输速率。没有做复杂的清洗操作主要是防止。分钟处理数据的方式,比较麻。

2023-04-18 13:48:49 231

原创 hive的使用及基本操作

Hive是基于的一个数据仓库工具(离线),可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能,操作接口采用类SQL语法,提供快速开发的能力, 避免了去写,减少开发人员的学习成本, 功能扩展很方便。用于解决海量结构化日志的数据统计。本质是:将 HQL 转化成 MapReduce 程序。

2023-04-14 19:48:41 187

原创 Flume 组成,Put 事务,Take 事务

找兄弟:下一级处理(hive dwd sparkstreaming flink 布隆)、去重手段(groupby、开窗取 窗口第一条、redis。不处理:生产环境通常不处理,出现重复的概率比较低。如果是金融、对钱要求准确的公司,选择 File Channel。header 信息,很遗憾,都不起作用。数据存储于磁盘,优势:可靠性高;数据存储于内存,优势:传输速度快;Flume1.7 解决了这个问题,开始火了。指向多个路径,每个路径对应不同的硬盘,增。

2023-04-13 08:25:52 49

原创 CDC介绍及代码

CDC是指从源数据库捕获到数据和数据结构(也称为模式)的增量变更,近乎实时地将这些变更,传播到其他数据库或应用程序之处。通过这种方式,CDC能够向数据仓库提供高效、低延迟的数据传输,以便信息被及时转换并交付给专供分析的应用程序。在数据不断变化,且无法中断与在线数据库连接的情况下,对于各种时间敏感(time-sensitive)类信息的复制,往往也是云端迁移的重要组成部分。

2023-04-12 08:37:26 493

原创 ClickHouse JOIN优化技巧

如果一个表的数据量比较小,可以不分shard存储,每个shard都存储全量的数据,例如我们的业务对象表。查询时,不需要分布式JOIN,直接在本地进行JOIN即可,这样也可以避免分布式JOIN带来的查询放大和全表数据分发问题。而IN查询会对右表的全部数据构建hash set,但是不需要匹配左表的数据,且不需要回写数据到block。优先将需要关联的表按照相同的规则进行分布,查询时就不需要分布式的JOIN。不论是分布式JOIN还是本地JOIN,都需要尽量让少的数据参与JOIN,既能提升查询速度也能减少资源消耗。

2023-04-11 08:32:15 660

原创 浅谈HDFS

1.大数据文件2.文件分块存储3.流式数据访问,一次写入多次读写4.不支持动态改变文件内容,而是要求让文件一次写入就不做变化,要变化也只能在文件末添 加内容5.廉价硬件6.硬件故障7.利用DMA引擎的零拷贝技术进行文件的传输和同步DMA:将一个内存区从一个设备复制到另一个。当中央处理器初始化这个传输动作,传输 动作本身是由DMA控制器来实行和完成。零拷贝技术:磁盘文件拷贝到PageCache然后拷贝到网卡。

2023-04-10 08:25:43 165

原创 Scala的各种工具类

【代码】Scala的各种工具类。

2023-04-08 08:14:15 278

原创 各种常用的工具类(Java)

各种java落地

2023-04-07 20:33:11 189

原创 Hlog结构和生命周期

在Hlog被移动到.oldlogs目录后,Hbase每隔hbase.master.cleaner.interval(默认60秒)时间会去检查.oldlogs目录下的所有Hlog,确认对应的Zookeeper的Hlog节点是否被删除,如果Zookeeper 上不存在对应的Hlog节点,那么就直接删除对应的Hlog。这就实现了Hlog滚动的目的。Hlog文件对应所有Region的store中最大的sequenceid如果已经刷盘,就认为Hlog文件已经过期,就会移动到.oldlogs,等待被移除。

2023-04-07 08:00:00 124

原创 RegionServer的故障恢复

RegionServer的相关信息保存在Zookeeper中,在RegionServer启动的时候,会在Zookeeper中创建对应的临时节点。当Zookeeper超过session超时时间还未收到RegionServer的ping包,则Zookeeper会认为该RegionServer出现故障,ZK会将该RegionServer对应的临时节点删除,并通知Master,Master收到RegionServer挂掉的信息后就会启动数据恢复的流程。

2023-04-07 06:00:00 108

原创 MemStore刷盘时机

为了提高Hbase的写入性能,当写请求写入MemStore后,不会立即刷盘。而是会等到一定的时候进行刷盘的操作。

2023-04-06 20:01:39 47

原创 Hbase的写逻辑

只有当写Hlog和写MemStore 都成功了才算请求写入完成。MemStore后续会逐渐刷到HDFS中。第一步:Client从Zookeeper获取数据写入的Region所在的RegionServer。Hlog存储在HDFS,当RegionServer出现异常,需要使用Hlog来恢复数据。Hbase的写逻辑涉及到写内存、写log、刷盘等操作。第三步:请求写MemStore。第二步:请求写Hlog。

2023-04-06 19:40:56 112

原创 Hbase 架构各个角色的功能以及使用场景

Client包含了访问Hbase的接口,另外Client还维护了对应的cache来加速Hbase的访问,比如cache的.META元数据的信息。

2023-04-06 10:00:59 610 1

原创 Hbase特点

HDFS为Hbase提供可靠的低层数据存储服务,MapReduce为Hbase提供高性能的计算能力,Zookeeper为Hbase提供稳定服务和Failover机制

2023-04-06 09:32:35 665 1

原创 es 优化经验

增加集群的缓存资源,把内存尽量多的用起来。开启索引压缩可节省空间,但会有。为常用字段增加配置, 将。不需分词的字符串字段设成。字段可以节省大量空间。增加冗余字段 将部分。

2023-03-31 16:43:12 129

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除