- 博客(8)
- 收藏
- 关注
原创 spark Standalone ha 集群部署
准备三台服务器,配置好对应主机的网络IP、主机名称、关闭防火墙、主机名masterslavescdh101√√cdh102√cdh103√用于Worker的Web UI用于Worker的Web UI应用程序(Driver和Executor)使用的端口5050、4040用于Executor的启动和Driver的回调。外部服务使用的端口(如Spark History Server18080用于Spark History Server的Web UI。
2024-08-06 19:03:55 941
原创 hive优化之_ORC表,小文件合并
当 Hive ORC 表存在小文件过多的问题时,可以考虑以下几种解决方法: 使用 Hive 自带的concatenate命令合并小文件,但该命令只支持rcfile和orc文件类型。多次执行后文件数量不再变化时,可能与参数mapreduce.input.fileinputformat.split.minsize=256mb的设置有关,可通过设定每个文件的最小 size 来调整。使用concatenate命令合并小文件,需要先评估数据量,和hive队列的cores。小数据量,多期数据,hive查询变慢。
2024-07-24 09:15:39 438
原创 Doris1.1.4集群搭建
FE 分为 Leader,Follower 和 Observer 三种角色。Leader 宕机,则剩下的 Follower 会自动选出新的 Leader,保证写入高可用。注意:删除 Follower FE 时,确保最终剩余的 Follower(包括 Leader)节点为奇数。如果只部署一个 FE,则 FE 默认就是 Leader。可以通过将 FE 扩容至 3 个以上节点来实现 FE 的高可用。BE 节点需要在 FE 中添加,然后才能加入集群。在每一个节点的 be 的主目录下执行下面的命令。
2024-03-12 11:13:48 601
原创 Greenplum常用命令
使用jk_admin创建schema并指定所有者 [root@master ~]# psql -h 192.168.100.139 -p 5432 -U jk_admin -d postgres;#将tc_dev 加入到jk_admin组中 postgres=# grant tc_dev to jk_admin;2、数据的分隔符最好是hive默认的,或者逗号,或者"|",最好不要是一些奇奇怪怪的分隔符。(每个分区创建一张表,否则会有一些奇奇怪怪的问题,比如读取慢,卡,甚至跑不动)
2024-03-12 10:52:57 1492
原创 CDH6.2Yarn资源CPU、内存配置
这个数值可以大于物理机实际的cpu内核数量,这里一般按1:1来设置(但是每台服务器推荐保留1个cpu)数值根据nodemanager所在物理机内存进行调整,一般设置为物理机剩余内存的50%~80%。可以为容器分配的虚拟 CPU 内核的数量。一、查看服务器配置和资源剩余情况。二、配置yarn cpu与内存。2.查看主机内核CPU。
2024-03-06 09:13:18 492
原创 搭建cdh6.2集群
rpm -Uvh http://dev.mysql.com/get/mysql-community-release-el6-5.noarch.rpm #下载。yum-config-manager --disable mysql56-community # 禁用MySQL5.6的源。yum-config-manager --enable mysql57-community # 启用MySQL5.7的源。yum install mysql-community-server #安装mysql。
2024-02-21 11:40:37 660
原创 centos7虚拟机磁盘扩容(亲测可行)
vm磁盘扩容选中需要扩容的虚拟机右键--设置--双击磁盘按步骤设置容量登录centos7fdisk /dev/sda将新扩容的磁盘新建分区n p 回车 回车w 保存修改reboot 重启df -h 查看新的分区(demo中为/dev/sda3)fdisk -lsudo pvcreate /dev/sda3sudo vgdisplay 查看分组信息语法sudo...
2021-08-04 09:35:10 662 2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人