大数据盼盼-CSDN博客

原创 hadoop常用的命令

创建文件夹：hadoop fs -mkdir -p /test。删除文件夹：hadoop fs -rm-r /test。查看文件内容：hadoop fs -cat /文件名。清空回收站：hadoop fs -expunge。查看文件个数：hadoop fs -count。文件赋权：hadoop fs -chmod。上传：hadoop fs - put。复制文件：hadoop fs -cp。下载：hadoop fs - get。查看文件夹：hadoop fs -ls。移动文件：hadoop fs -mv。

2024-06-27 15:48:30 96

原创 ip地址转换成数字、二叉树划分方法

【代码】ip地址转换成数字、二叉树划分方法。

2023-05-30 16:23:40 243

原创 sparkSql

Spark SQL是Spark用来处理结构化数据构建在SparkCore基础之上的一个基于SQL的计算模块。具有DSL和SQL两种查询方式。DSL：调用算子进行数据分析，对编程能力有要求。SQL：纯sql语句，使用之前，要将数据注册成为一张表。

2023-05-24 15:36:16 221

原创 Spark共享变量

用来同步work中的计算结果到Driver中。

2023-05-22 17:02:22 197

原创 Spark中的持久化（缓冲）以及检查点机制

跨操作在内存中持久化（或缓冲）数据。当持久化RDD时，将每个节点的计算的所有分区存储在内存中，为了是数据的重用。再次调用的时候不需要重新计算，速度更快。可以使用persist（）和cache（）两种方方将RDD标记为持久化。第一次动作中计算时，它将保存在节点的内存中。Spark的缓冲是容错的，当RDD分区丢失的时候，可以使用最初创建缓冲位置调用重新计算。cache是调用了persist的无参缓冲方法。

2023-05-22 16:26:01 241

原创 NameNode如何处理Datanode的故障

Datanode会定期向NameNode发送心跳信号，告知自己的状态和存储容量等信息。如果NameNode连续若干次没有收到某个Datanode的心跳信号，就会将该Datanode标记为故障节点。

2023-05-19 10:06:34 1004

原创 Sqoop在导入数据的时候数据倾斜如何处理

可以通过增加Sqoop导入任务的并行度来减少数据倾斜问题。可以通过增加map数或者使用--split-by参数指定合适的列进行切分数据，从而提高导入任务的并行度。

2023-05-19 09:44:25 568

原创 Udf/udtf/udaf的实现及使用场景

UDF可以用于字符串处理、日期处理、数值计算等方面。UDF的实现可以使用Java、Python、Scala等编程语言。UDAF可以用于求平均值、求最大值、求最小值等场景。UDAF的实现可以使用Java、Python、Scala等编程语言。UDTF的实现可以使用Java、Python、Scala等编程语言。UDAF可以用于求平均值、求最大值、求最小值等场景。例如，求某个商品的平均销售额、求某个地区的最高温度、求某个部门的最低工资等。UDF可以用于字符串处理、日期处理、数值计算等场景。

2023-05-19 09:31:12 596

原创 MapReduce工作流程及Shuffle

执行自己编写的map函数，Map过程开始处理，MapTask会接收输入分片，通过不断的调用map方法对数据进行处理，处理完毕后，转换为新的<key,value>键值对输出.格式化操作：将划分好的分片( split )格式化为键值对<key,value>形式的数据，其中， key 代表偏移量， value 代表每一行内容。环形缓冲区到达一定阈值（环形缓冲区大小的80%）时，会将缓冲区中的数据溢出本地磁盘文件，这个过程会溢出多个文件，多个溢写文件会被合并成大的溢写文件。一、分片、格式化数据源。

2023-05-15 17:09:32 377

原创 RDD操作.3

first获取元素中的第一个元素。take获取元素中的前N个元素。对算子进行聚合，风险较大，一般结合filter使用。reduce对一个rdd执行聚合操作，并返回结果。按分区循环执行，一般用于分区保存，效率较高。对元素先进行排序，然后获取前N个元素。主要是用于算子的遍历输出。统计RDD中元素的个数。统计Key出现的次数。保存文件到指定的位置。

2023-05-15 15:30:26 108

原创 RDD操作.2

用func先对数据进行处理，按照处理后的数据比较结果排序第一个参数为以哪个参数排序，第二个为是否为正序排序，第三个参数为去值范围。

2023-05-15 15:18:16 85

原创 RDD操作.1

对分区进项可以操作，可以合并分区，coalesce(numPartition, shuffle=false)，不进行shuffle。增大分区 coalesce(numPartition, shuffle=true)，会重新分区，进行shuffle。映射，对RDD集合中的每个元素计算，然后返回一个新的RDD集合，里面元素的个数不会变。对RDD集合中的每个元素进行计算，然后扁平化输出，构成一个新的RDD。对两个RDD数据进行联合，是一个窄依赖，可以合并数据和分区。

2023-05-11 20:07:05 79

原创 spark知识

为了防止主节点发生单点故障的问题。

2023-05-09 20:21:59 50

原创 Spark及RDD总结

针对列表当中的每一个元素进行操作，操作完成后返回一个新的列表，操作之前是多少个元素，操作之后还是多少个元素，不会增加，不会减少。2.Spark提供超过80多个高阶算子函数，来支持对数据集的各种各样的计算，使用的时候，可以使用java、scala、python、R，非常灵活易用。一个集成离线计算，实时计算，SQL查询，机器学习，图计算为一体的通用的计算框架。窄依赖：父RDD当中的一个分区只能被子RDD当中一个分区所依赖。

2023-05-08 16:58:29 171

原创 yarn的工作流程及调度器

1.Mr程序提交到客户端所在的节点。2.Yarnrunner向Resourcemanager申请一个Application。3.rm将该应用程序的资源路径返回给yarnrunner。4.该程序将运行所需资源提交到HDFS上。5.程序资源提交完毕后，申请运行mrAppMaster。6.RM将用户的请求初始化成一个task。7.其中一个NodeManager领取到task任务。8.该NodeManager创建容器Container，并产生MRAppmaster。

2023-04-29 10:08:47 201

原创 Kafka

会根据 seq 重新添加到队列的合适位置，并把 max.in.flight.requests.per.connection 设为。情况下 max.in.flight.requests.per.connection。replica.lag.time.max.ms= 600000# 如果网络不好。败，就会无限次重试，保证数据必须成功的发送给两个副本，如果做不到，就不停。的重试，除非是面向金融级的场景，面向企业大客户，或者是广告计费，跟钱的计。官网有数据表明，同样的磁盘，顺序写能到。

2023-04-18 14:35:51 177

原创 Flume

尝试提交的次数远远大于最终成功的次数，说明。用 Event intercept(Event event)Replicating：默认选择器。功能：将数据发往下一级所有通道。最好设置一致，减少内存抖动带来的性能影响，如果设置不一致容易导。时间戳拦截器建议使用。如果不用需要采用延迟。Multiplexing：选择性发往指定通道。（2）找朋友：增加服务器台数。（2）时间戳拦截器：主要是解决零点漂移问题。主要是内存不够导致的。过多的降低传输速率。没有做复杂的清洗操作主要是防止。分钟处理数据的方式，比较麻。

2023-04-18 13:48:49 270

原创 hive的使用及基本操作

Hive是基于的一个数据仓库工具(离线)，可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能，操作接口采用类SQL语法，提供快速开发的能力，避免了去写，减少开发人员的学习成本，功能扩展很方便。用于解决海量结构化日志的数据统计。本质是：将 HQL 转化成 MapReduce 程序。

2023-04-14 19:48:41 234

原创 Flume 组成，Put 事务，Take 事务

找兄弟：下一级处理（hive dwd sparkstreaming flink 布隆）、去重手段（groupby、开窗取窗口第一条、redis。不处理：生产环境通常不处理，出现重复的概率比较低。如果是金融、对钱要求准确的公司，选择 File Channel。header 信息，很遗憾，都不起作用。数据存储于磁盘，优势：可靠性高；数据存储于内存，优势：传输速度快；Flume1.7 解决了这个问题，开始火了。指向多个路径，每个路径对应不同的硬盘，增。

2023-04-13 08:25:52 67

原创 CDC介绍及代码

CDC是指从源数据库捕获到数据和数据结构(也称为模式)的增量变更，近乎实时地将这些变更，传播到其他数据库或应用程序之处。通过这种方式，CDC能够向数据仓库提供高效、低延迟的数据传输，以便信息被及时转换并交付给专供分析的应用程序。在数据不断变化，且无法中断与在线数据库连接的情况下，对于各种时间敏感(time-sensitive)类信息的复制，往往也是云端迁移的重要组成部分。

2023-04-12 08:37:26 595

原创 ClickHouse JOIN优化技巧

如果一个表的数据量比较小，可以不分shard存储，每个shard都存储全量的数据，例如我们的业务对象表。查询时，不需要分布式JOIN，直接在本地进行JOIN即可，这样也可以避免分布式JOIN带来的查询放大和全表数据分发问题。而IN查询会对右表的全部数据构建hash set，但是不需要匹配左表的数据，且不需要回写数据到block。优先将需要关联的表按照相同的规则进行分布，查询时就不需要分布式的JOIN。不论是分布式JOIN还是本地JOIN，都需要尽量让少的数据参与JOIN，既能提升查询速度也能减少资源消耗。

2023-04-11 08:32:15 1121

qq_66455465的博客

原创 hadoop常用的命令

原创 ip地址转换成数字、二叉树划分方法

原创 sparkSql

原创 Spark共享变量

原创 Spark中的持久化（缓冲）以及检查点机制

原创 NameNode如何处理Datanode的故障

原创 Sqoop在导入数据的时候数据倾斜如何处理

原创 Udf/udtf/udaf的实现及使用场景

原创 MapReduce工作流程及Shuffle

原创 RDD操作.3

原创 RDD操作.2

原创 RDD操作.1

原创 spark知识

原创 Spark及RDD总结

原创 yarn的工作流程及调度器

原创 Kafka

原创 Flume

原创 hive的使用及基本操作

原创 Flume 组成，Put 事务，Take 事务

原创 CDC介绍及代码

原创 ClickHouse JOIN优化技巧

原创浅谈HDFS

原创 Scala的各种工具类

原创各种常用的工具类（Java）

原创 Hlog结构和生命周期

原创 RegionServer的故障恢复

原创 MemStore刷盘时机

原创 Hbase的写逻辑

原创 Hbase 架构各个角色的功能以及使用场景

原创 Hbase特点

原创 es 优化经验

空空如也

空空如也