自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 she’ll

sed "s/[^']*'\([^']*\)'.*'\([^']*\)'.*/\1/" your_file.txt

2024-02-29 11:31:07 384

原创 ssh免密

vim /root/.ssh/authorized_keysssh-rsa AAAAB3NzaC1yc2EAAAADAQABAAABAQClXM9QuQEsyapmqSd+R9l87RXkXrPmjHLk2fIyVWI9opduwEFOIqdZp3/zVmKcFowr+rZGIbFYHjKv1Ci2c50+on69ztR/nZc35gBxkd5AfsDPIlvU/d1Fm9gOWlrHKrD8xjOFL/42/7A7NbUd+uUS2fWMqZxBGB1NuBi0BueaAe6U+FHG+POL3c

2023-11-17 00:42:16 52 1

原创 Linux命令脚本

bin/bashthendodoneexitfidodone。

2023-10-13 12:36:49 44

原创 linux同步脚本

3. 遍历所有目录,挨个发送。#6. 获取当前文件的名称。#2. 遍历集群所有机器。#4. 判断文件是否存在。#1. 判断参数个数。

2023-10-13 12:35:30 42

原创 Hadoop-HDFS

1)Hadoop在设置副本数后在传入数据时会在接受到请求后通过NameNode检查目标文件是否存在,然后NameNode反馈是否可以上传,然后客户端请求发送第一个文件块上传到那几个DataNode服务器,NameNode会返回给它要上传的节点,在然后会挑选一个服务器上传数据,备份依靠链式传输,并逐级反馈接收情况。scp -r root@hadoop103:/user/root/hello.txt root@hadoop104:/user/root //是通过本地主机中转实现两个远程主机的文件复制;

2023-10-12 22:05:01 29

原创 Hudi的应用(4)

ENGINE = InnoDB CHARACTER SET = utf8 COLLATE = utf8_general_ci COMMENT = '各分类商品交易统计' ROW_FORMAT = DYNAMIC;) ENGINE = InnoDB CHARACTER SET = utf8 COLLATE = utf8_general_ci COMMENT = '用户新增活跃统计' ROW_FORMAT = DYNAMIC;

2023-09-12 23:43:36 117 1

原创 Hudi的应用(3)

when '3102' then concat('满',cast(condition_amount as string),'件打',cast(10*(1-benefit_discount) as string),'折')when '3101' then concat('满',cast(condition_amount as string),'元减',cast(benefit_amount as string),'元')-- ods_sku_sale_attr_value 插入数据。

2023-09-12 23:41:43 119 1

原创 Hudi的应用(2)

(1)元数据:.hoodie目录对应着表的元数据信息,包括表的版本管理(Timeline)、归档目录(存放过时的instant也就是版本),一个instant记录了一次提交(commit)的行为、时间戳和状态,Hudi以时间轴的形式维护了在数据集上执行的所有操作的元数据;(4)如果是 update 消息,写对应的 file group + file slice,直接 append 最新的 log file(如果碰巧是当前最小的小文件,会 merge base file,生成新的 file slice)

2023-09-12 23:37:49 231 1

原创 Hudi的应用(1)

例如业务系统中与商品相关的表有sku_info,spu_info,base_trademark,base_category3,base_category2,base_category1等,其中sku_info就称为商品维度的主维表,其余表称为商品维度的相关维表。而当需要一个大型的存储,而当前没有明确的数据应用用户或者是目标,将来想要使用这些数据的人可以在使用时开始设计架构,此时,数据湖更适合。但数据湖的设计理念是相反的,数据仓库是为了保障数据的质量、数据的一致性、数据的重用性等对数据进行结构化处理。

2023-09-12 23:28:58 57 1

原创 Hudi的使用

第1章 Hudi概述1.1 Hudi简介Apache Hudi(Hadoop Upserts Delete and Incremental)是下一代流数据湖平台。Apache Hudi将核心仓库和数据库功能直接引入数据湖。Hudi提供了表、事务、高效的upserts/delete、高级索引、流摄取服务、数据集群/压缩优化和并发,同时保持数据的开源文件格式。Apache Hudi不仅非常适合于流工作负载,而且还允许创建高效的增量批处理管道。Apache Hudi可以轻松地在任何云存储平台上使用

2023-09-12 23:06:56 1424 1

原创 Datax

当提升DataX Job内的Channel并发数时,内存的占用会明显增加,因为DataX作为数据交换通道,在内存中会缓存较多的数据,例如:channel中会有一个Buffer,作为临时的数据交换缓冲区,而在Reader和Write中,也会有一些buffer,为了防止OOM等错误,需要适当调大JVM堆内存。实现了写入数据到Mysql数据库目的表的功能。DataX中提供了包括通道(并发)、记录流、字节流三种流控模式,可以根据需要控制你的作业速度,让你的作业在数据库可以承受的范围内达到最佳的同步速度。

2023-08-25 19:52:20 70 1

原创 Hbase

HBase操作过程中需要大量的内存开销,毕竟Table是可以缓存在内存中的,但是不建议分配非常大的堆内存,因为GC过程持续太久会导致RegionServer处于长期不可用状态,一般16~36G内存就可以了,如果因为框架占用内存过高导致系统内存不足,框架一样会被系统服务拖死。一条数据的唯一标识就是rowkey,那么这条数据存储于哪个分区,取决于rowkey处于哪个region的区间内,设计rowkey的主要目的 ,就是让数据均匀的分布于所有的region中,在一定程度上防止数据倾斜。

2023-08-25 19:39:16 30

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除