自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(51)
  • 收藏
  • 关注

原创 在group by分组的时候,某个key过多导致数据倾斜

在进行 group by 之前,先给每个 user_id 增加一个随机前缀,使得原本相同的 user_id 被打散到不同的分组中。在第一步的基础上,去掉前缀,再进行一次分组和聚合,得到最终的结果。对带有随机前缀的 user_id 进行分组和聚合。按带前缀的 key 进行分组。

2024-09-14 12:18:52 192

原创 Broadcast Hash Join

Broadcast Hash Join

2024-08-27 08:25:22 187 1

原创 datax做增量导入数据到hive:mysql>hive

datax做增量导入mysql数据到hive

2024-08-09 11:14:25 1098

原创 Spark累加器(Accumulator)

累加器运行解释

2024-07-30 14:33:17 1025

原创 拉链表和宽表

拉链表和宽表

2024-07-23 08:46:04 271

原创 RDD算子---->coalesce和repartition的区别

RDD算子---->coalesce和repartition的区别

2024-07-18 11:26:53 493

原创 Python中的lambda表达式

Python---lambda表达式

2024-07-12 14:15:34 432

原创 Datax总结

Datax总结

2024-07-12 09:26:47 1515

原创 Hive的分区表&分桶表

分区表&分桶表

2024-07-11 19:52:37 621 1

原创 Hive中的数据类型和存储格式总结

Hive中的数据类型和存储格式总结

2024-07-11 14:12:51 1118 1

原创 HDFS体系架构&文件写入/下载流程

HDFS(Hadoop Distributed File System,Hadoop分布式文件系统)是Hadoop项目中的一个核心组件,旨在以高容错、高吞吐量来处理大规模数据集。NameNode 创建一个新文件条目,返回给客户端数据块的位置信息(即哪些 DataNode 将存储数据块的副本)。DataNode 向 NameNode 报告已存储的数据块信息。客户端 按顺序将数据块写入到指定的 DataNode。NameNode 返回文件的元数据和数据块位置信息。客户端 汇总数据块,呈现完整文件。

2024-07-10 13:53:26 476

原创 Hadoop中的副本、校验和(数字指纹)、block

Hadoop中的副本、校验和(数字指纹)、block

2024-07-09 11:22:35 793

原创 Datax配置文件的编写&同步数据&调优

datax配置文件解释&编写&同步策略&优化

2024-07-08 09:35:41 777

原创 HDFS的Checkpoint 执行流程

HDFS的Checkpoint 执行流程

2024-07-03 14:44:32 404

原创 Hive数据倾斜--处理方法

Hive数据倾斜

2024-07-03 10:21:56 535

原创 MapReduce的执行流程&排序

MapReduce的执行流程&排序过程&溢写,环形缓冲区

2024-06-29 17:01:13 1089

原创 Linux----> tail、cat、more、head、less的用法详解

tail、cat、more、head、less的用法详解

2024-06-29 11:18:48 516

原创 Java中double类型数据进行运算的时候出现精度丢失问题

double类型的浮点数据进行运算的过程中出现精度丢失问题

2024-06-29 10:06:20 413

原创 Java基础面试题(简单版):

2)提供公共的(public)set/get方法,对数据进行判断并赋值 a. 提供“set变量名(参数)”方法,用于设置成员变量的值,方法用public修饰 b. 提供“get变量名()”方法,用于获取成员变量的值,方法用public修饰。可以说ArrayList和LinkedList除了是同属于集合类,其他都是不同的,因为他们本身的实现是两种不同的实现方式,ArrayList 维护的是一个动态数组,LinkedList维护的是一个双向链表,而他们之间的不同是数组与链表的特性比较。

2024-06-29 09:29:30 509

原创 Linux命令----wc,uniq,sort的用法

Linux命令----wc,uniq,sort的用法

2024-06-24 14:54:29 230

原创 shell脚本中特殊变量:$数字,$#,$*,$$,$?,$@

shell脚本中特殊变量:$数字,$#,$*,$$,$?,$@

2024-06-24 14:10:07 526

原创 Hive表连接----内连接,全连接,左连接,右连接

Hive表连接----内连接,全连接,左连接,右连接。

2024-06-19 11:13:22 384

原创 Linux命令---- find与grep的区别和使用

find与grep的区别和使用

2024-06-13 15:38:18 473

原创 flume配置----a1.sources.r1.positionFile=xxxx.json

flume中positionFile的配置

2024-06-13 10:30:33 531 1

原创 linux命令---cut与awk的用法

问题:获取ip地址的命令,只输出ip地址 ip addr|grep 'inet'|awk '{print $2}'|cut -d/ -f1

2024-06-05 09:50:00 441

原创 group by报错:[42000][10025] Error while compiling statement: FAILED: SemanticException [Error 10025]:

[42000][10025] Error while compiling statement: FAILED: SemanticException [Error 10025]: Line 1:11 Expression not in GROUP BY key 'xxxx'

2024-05-29 11:54:13 211

原创 Hive中获取每组数据中id最大的数据

题目:重复数据只保留一条id最大的。

2024-05-25 11:09:26 354

原创 HashMap统计字符个数

使用HashMap统计字符串中,字符出现的次数

2024-04-11 18:51:56 110

原创 Iterator中使用List集合中的方法修改集合中内容的报错

【代码】Iterator中使用List集合中的方法修改集合中内容的报错。

2024-04-11 15:25:45 172

原创 “==“与“equals“的区别

"=="与"equals"的区别

2024-04-02 16:40:58 196

原创 IDEA如何自动添加作者和日期

IDEA如何自动添加作者和日期

2024-03-28 19:21:27 989

原创 冒泡排序和选择排序的实现

冒泡排序和选择排序的代码实现

2024-03-26 20:07:14 217

原创 Java版九九乘法表的实现

上次发布过Python的九九乘法表的设计与实现,这次改用java版本,java语言确实没有Python语言简洁,这得益于Python拥有强大的内部方法的缘故。

2024-03-25 08:55:04 274 1

原创 简易版ATM机模拟

这周的作业是模拟ATM机的运行,这个作业运用if-else和while循环,实现密码的判断和只能输入三次密码。

2024-03-25 08:48:58 241 1

原创 练习:水仙花数+回文数

Java基础+水仙花数+回文数

2024-03-21 19:05:30 192 1

原创 计算一年中的某天是这一年的第几天

程序的用意是判断一年中的某天是这一年的第多少天,优先判断是否为闰年,如果是返回2月份到底是多少天。

2024-03-15 09:24:51 117 1

原创 Python 九九乘法表的四种形状

好久没有写代码了,今天练习一下这些基础知识,以后也会持续更新学习日常,为了工作而努力进步,一起进步加油同学们!

2024-03-14 14:31:30 336 1

原创 批量更改文件后缀名

批量更改图片文件的后缀名:第一步:新建txt文件,打开文件,将以下内容放入文件中:ren(空格)*.【原后缀名】(空格)*.【想要修改成的后缀名】第二步:将txt文件后缀名改成bat可执行文件第三步:双击bat文件ji'ke...

2022-05-13 18:28:08 527 2

原创 2022版IDEA创建web项目方法

新版本的IDEA创建项目方法发生了变化比起过往版本更加简单便捷。2022版IDEA创建项目步骤:第一步:File-New-Project第二步:点击New Project:输入项目名称Name输入项目路径:Location勾选Create Git repository选择jdk版本点击创建Create第三步:右键项目名称选择Add Frameworks Support勾选Web Application创建成功!...

2022-04-25 17:48:41 14293 9

原创 Tomcat服务器软件的简单介绍

1.下载:Apache Tomcat® - Welcome!2.安装:解压即可3.卸载:删除目录即可4.启动:bin/startup.bat访问:http://localhost:8080 回车访问自己的tomcat*可能遇到的问题:黑窗一闪而过:需要正常配置JAVA_HOME5.关闭:##### *正常关闭:bin/shutdown.bat ctrl+c*强制关闭:点击窗口的x6.配置:*部署项目的方式:1.将项目直接放到webapps中*/hello:项目

2022-04-04 18:11:42 1155

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除