自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 4️⃣Hive

CREATE DATABASE [IF NOT EXISTS] database_name --指定库名[COMMENT database_comment] --指定库的描述信息[LOCATION hdfs_path] --指定库在HDFS中的对应目录--指定库的属性信息分区表分桶表表现形式是一个目录是文件创建语句使用partitioned by 子句指定,以指定字段为伪列,需要指定字段类型由clustered by 子句指定,指定字段为真实字段,需要指定桶的个数数量。

2023-10-11 09:56:28 234

原创 2️⃣Zookeeper(动物管理员)

分布式(多台机器同时做一件事情),开源的框架,分布式应用程序的协调服务(卫生委员,管理者)是一个分布式应用程序提供一致性(统一的进行管理,保证数据的一致性,容错率低)的服务的软件,封装了大量复杂关键的技术(服务),将简单的接口(API)暴露,高效的使用Zookeeper,稳定性非常高在大数据生态圈,Zookeeper(动物管理员)是一个非常重要的基础技术,Hadoop(大象),Hive(小蜜蜂),Pig(小猪)

2023-09-22 11:43:33 3282 2

原创 3️⃣Hadoop

Map和ReduceMap阶段并行处理输入数据;将数据分到多台机器进行计算;Map功能接口提供了“分散”的功能,由服务器分布式对数据进行处理。Reduce(合)Reduce阶段对Map结果进行汇总;将多台机器中运算的结果统一汇总;Reduce功能接口提供了“汇总(聚合)”的功能,将分布式的处理结果汇总统计。序列化就是把内存中的对象转换成字节序列(或其他数据传输协议)以便于存储到磁盘汇(持久化)和网络传输。(对象到磁盘)反序列化。

2023-09-20 20:03:01 151 2

原创 Spark数据倾斜

Spark数据倾斜解决方案

2023-09-01 20:49:13 346 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除