- 博客(11)
- 收藏
- 关注
原创 Impala(2)常见优化方法(附带例子)
由于A B数据量很小,所以参与计算的节点只有2个instances;C表大表 加了shuffle后,会把数据partitioned到那两个节点,最终导致2个节点内存消耗过大,内存溢出。1. A JOIN[shuffle] B JOIN[shuffle] C , A和B是小表,C是大表。适合大表join小表的场景,将小表广播到大表所在的所有节点,可以本地实现join。适合两个大表join,将大表shuffle成多个部分,分别在不同的节点join。采用hints来指示Impala执行方法。
2024-09-03 11:37:17 163
原创 impala(1)架构原理理解,以及和HIVE的比较
1.catalogd任务是对hive metastore中的信息,namenode和sentry进行元数据同步。3.inpala进程由C++后端 和 前端组成,前端在嵌入式JVM中运行。3.impala的查询分为两个阶段:计划+执行。2.statestored是分发元数据。4.impala专用协调器。
2024-09-02 16:07:38 411
原创 kafka(2):关于kafka的一些原理,记录自己的一些理解
1.首先kafka是消息发布/订阅,一对多的模式,可以有多个消费者组消费topic。
2023-06-08 16:08:16 195 1
原创 kafka(1):本地使用kafka创建topic/收发消息
3.kafka消息是按照topic来收发的,所以,要先创建topic。topic可以有多个分区,每个分区的数据都可以制定其副本个数据,防止丢失恢复。这些在创建topic的时候,都需要制定。4.kafka的生产者和消费者的脚本,先开启消费者,然后从生产端输入数据,消费端可以实时接收到,命令中包含了topic的基本信息以及所在主机位置。2. 进入解压包路径,开启zk和kafka,zk是来监管kafka的一些元数据和存储情况的。1. 官网下载jar包,解压即用。2.1.查看topic。
2023-06-08 11:51:14 588 1
原创 debug模式下,断点进入.class文件,解决办法
进入.class文件后,顶端会有一个显示条,两个选项:Download Sources 和 Choose Sources。点击Choose Sources,选择你的源码目录。默认的路径是Maven的路径,我们需要切换到项目路径下。
2023-05-31 14:24:02 849 1
转载 关于:pycharm左侧项目文件背景变黄,不显示文件 问题
Pycharm 项目左侧目录文件背景变黄且部分文件不显示的问题_pycharm文件变黄_Take^that的博客-CSDN博客。
2023-05-22 12:00:07 714 1
原创 关于“zsh: command not found: pip”问题
3.poetry install (有点像 mvn install一样,安装依赖)2.pipenv install poetry (Poetry 是。4.pipenv install xxx (安装xx包)
2023-05-16 15:11:00 312
原创 关于 git pull 出现 “Enter passphrase for key ‘/Users/xxx/.ssh/id_rsa‘ ”的问题
出现Your identification has been saved with the new passphrase.->再git pull 就可以啦。
2023-05-15 18:17:45 1866 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人