杂家-CSDN博客

原创 Hive on Spark && Spark on Hive配置

本文详细介绍了Hive与Spark集成的两种配置方式：Hive on Spark和Spark on Hive。Hive on Spark通过修改Hive执行引擎为Spark，提升计算效率但需注意内存配置；Spark on Hive则让Spark直接访问Hive元数据，提供更灵活的数据处理能力。配置步骤包括环境变量设置、配置文件修改、HDFS目录创建、依赖文件上传等关键操作，并提供了测试方法和中文乱码解决方案。两种方式都实现了Hive与Spark的优势互补，可根据实际需求选择适合的集成方案。

2025-11-22 11:37:29 130

原创聊聊关于hive“中文乱码”问题

摘要：在基于Docker的RockyLinux8大数据集群中迁移CSV数据到Hive时，遇到两个关键问题：数据带双引号和中文乱码。双引号问题通过使用OpenCSVSerde指定引号字符解决。中文乱码问题排查了元数据库编码、MySQL配置、Hive配置和文件编码后，最终通过在hive-env.sh中添加-Dfile.encoding=UTF-8参数强制JVM使用UTF-8编码得以解决。该方案确保了Hive处理中文数据的正确性，解决了困扰两天的编码问题。

2025-11-11 15:56:40 1744

原创 FAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask

摘要在使用Docker部署的大数据集群测试Hive时，执行简单的聚合查询报错(MapRedTask返回码2)。经排查发现，由于容器缺少find命令导致MapReduce任务失败。解决方法为：1)通过YARN日志定位到缺少find命令；2)下载findutils RPM包并安装到容器中。该案例提醒我们，Docker化大数据组件时需确保基础Linux命令完整，同时类似错误可能有多种原因，需结合具体日志分析解决。

2025-11-11 14:39:11 270

原创 docker启动容器报错：Error response from daemon: network b295f6993316da7f088e1d not found

摘要处理Docker容器网络冲突问题的经验总结：在部署grafana时由于共享网络导致容器启动失败。通过分析发现，使用同一网络的hadoop集群容器未启动，但网络已被grafana容器删除。提供了三种解决方案：1) 导出/导入容器重建网络；2) 完全重建所有容器；3) 采用网络断连重建方式（最终方案）。详细说明了使用docker network disconnect强制断开旧网络、docker ps查看网络连接情况以及docker network connect连接新网络的具体命令和参数说明。

2025-11-07 09:21:42 317

原创 Docker&Docker-compose在线部署和离线部署

文章摘要：本文介绍了Docker在RockyLinux 9.6系统上的在线和离线安装方法。在线安装包括更新系统、添加存储库、安装Docker组件及设置用户权限等步骤。离线安装则需先下载Docker和Docker Compose安装包，解压配置后手动启动服务。两种方式都提供了详细的命令行操作指南，并包含服务启动、权限设置和环境变量配置等关键步骤，最后通过版本验证确认安装成功。

2025-11-07 07:48:49 989

原创重装RockyLinux服务器（超详细）

摘要本文介绍了如何重装RockyLinux服务器以替代不再维护的CentOS 7/8系统。主要内容包括：通过U盘启动进入BIOS设置，选择语言和自定义分区（建议分配/boot、biosboot/efi、swap空间），禁用KDUMP，选择最小安装模式并设置密码。此外，还详细说明了如何配置网卡IP地址及删除多余IP地址的方法。

2025-11-06 14:19:03 379

原创使用Docker部署Grafana集成TDengine

本文介绍了使用Docker部署Grafana并集成TDengine数据库的完整流程。主要内容包括：通过Docker命令安装Grafana并自动加载TDengine插件；使用docker-compose配置自动化部署方案，包含TDengine和Grafana的服务配置；实现数据源连接测试和可视化面板创建。文中提供了详细的YAML配置示例和操作截图，涵盖了从环境准备、容器部署到数据可视化展示的全过程，最终实现Grafana与TDengine的集成应用。

2025-11-06 12:54:47 1023

原创 TDengine3.3.6.13集群部署

摘要：本文详细介绍了TDengine数据库集群的部署流程，涵盖环境准备、安装配置和集群管理。主要内容包括：1) 规划3节点服务器架构；2) 基础环境配置（FQDN解析、hosts映射、端口开放等）；3) 服务端与客户端安装注意事项；4) 关键配置文件参数修改（firstEp/fqdn）；5) 节点动态加入/删除操作及常见错误处理（如offline状态）；6) 常用集群管理命令（show dnodes/create dnode等）。特别强调所有节点需保持版本一致，配置文件需按节点差异化调整，并提供了防火墙和

2025-11-05 08:41:57 1479

原创 Hadoop完全分布式部署（超详细）

Hadoop完全分布式部署指南本文详细介绍了Hadoop 3.1.3版本的完全分布式部署方案，包含两种集群模式：非高可用模式：NameNode单点部署，含3节点规划（NameNode+DataNode、DataNode+ResourceManager、DataNode+SecondaryNameNode）高可用模式：双NameNode部署配置部署步骤包括：环境变量配置核心配置文件修改（core-site.xml、hdfs-site.xml、yarn-site.xml、mapred-site.xm

2025-11-04 13:26:09 963

原创 Zookeeper完全分布式部署（超详细）

摘要：本文介绍了Zookeeper 3.5.7版本的分布式集群部署过程。在三台服务器(node1-3)上分别安装Zookeeper，通过修改zoo.cfg配置文件设置数据存储路径，并为每台服务器创建专属myid标识文件。关键配置包括添加集群节点信息(server.2/3/4)和端口映射(2888:3888)。部署完成后，使用scp命令分发安装文件至其他节点，修改对应myid值后分别启动服务，通过status命令验证集群状态，支持前台启动查看日志。

2025-11-04 11:25:51 323

原创 System is booting up. Unprivileged users are not permitted to log in yet.限制非特权（root）用户登录

摘要：在Docker搭建Hadoop集群时，非root用户登录失败，提示"Unprivileged users are not permitted to log in"，这是PAM的pam_nologin模块在系统启动期间限制非特权用户登录所致，可能因服务启动失败或依赖问题引发。解决方法包括：检查并删除/etc/nologin文件；若未解决，全局查找nologin文件（如/run/nologin）并删除；错误可能表现为SSH登录失败或"Permission denied

2025-11-02 20:52:10 428

原创远程连接root用户失败

远程连接root用户失败可能由三个原因导致：1)未安装SSH服务；2)22端口被占用或防火墙阻止；3)系统默认禁用root远程登录。解决方法主要是修改SSH配置：安装openssh-server，检查端口设置，关闭防火墙，并在/etc/ssh/sshd_config中添加"PermitRootLogin yes"配置项，最后执行source命令使配置生效即可实现root远程登录。

2025-10-30 15:41:28 176

原创 U盘-------linux服务器互相拷贝文件

本文介绍了在Linux服务器上使用U盘拷贝文件的方法。主要步骤包括：1）插入U盘后通过lsblk或fdisk命令确认U盘设备；2）在/mnt目录下创建挂载点并挂载U盘；3）使用cp命令实现服务器与U盘间的文件互传；4）最后卸载U盘。该方法适用于内网环境下服务器与外部设备间的文件交换，操作简单实用。

2025-10-30 13:18:20 388

原创 Rocky Linux9.6 & CentOS Linux安装MySQL8

本文详细介绍了在Rocky Linux 9.6系统上安装MySQL 8.0.43的完整步骤。主要内容包括：1) 确认系统glibc版本兼容性；2) 从官网下载对应版本的MySQL；3) 详细安装配置过程，包括创建目录、用户权限设置、配置文件编写；4) 初始化数据库、修改密码、设置远程访问；5) 将MySQL注册为系统服务并配置环境变量。该指南同样适用于CentOS系统用户，提供了从安装到配置的一站式解决方案，并特别强调了版本兼容性检查和防火墙设置等关键注意事项。

2025-10-28 16:22:33 1604

原创 java heap space内存溢出

【摘要】MapReduce作业（job_1706155077266_0202）在执行过程中因Java堆内存不足导致失败，累计CPU时间为1小时26分30秒。错误诊断显示多个map任务（如task_000000等）出现"Error: Java heap space"问题，其中最严重任务失败4次。解决方案建议在mapred-site.xml中调整内存配置：将map阶段内存设为10150MB（JVM堆内存6144MB），reduce阶段内存设为10150MB（JVM堆内存8120MB）。

2024-05-11 10:35:49 1051 1

原创 Linux：安装rh-php72

摘要：在CentOS安装Zabbix时遇到缺少rh-php72依赖问题，可能是由于软件源配置不当。解决方法包括：1）检查是否已安装rh-php72；2）尝试直接安装；3）若报错，需编辑或创建/etc/yum.repos.d/CentOS-SCLo-scl-rh.repo文件，确保enabled=1；4）更新yum缓存后重新安装。该问题通常与SCL软件源配置有关，通过修改repo文件并启用正确源即可解决。

2023-12-13 11:25:15 3100 1

原创 hive：insert into/overwrite插入分区详解

本文分享了数据从ODS层到DWD层清洗过程中的SQL操作经验。重点介绍了两种数据写入方式：INSERT INTO用于数据追加，需注意字段匹配；INSERT OVERWRITE用于数据覆盖，但不能指定字段。特别强调了分区表操作时partition的正确使用顺序，避免踩坑。这些实践技巧对大数据ETL开发中的标准化处理具有参考价值。

2023-12-06 18:18:11 3022 1

原创 sqoop导出数据到hive使用desc formatted查询表numRows为0

【摘要】数据仓库项目中遇到ODS层表数据量统计效率问题：直接从表计算行数效率低下，需通过元数据获取。发现Hive表desc formatted显示的numRows为0，因统计信息未更新导致。解决方案是手动更新统计信息：非分区表使用analyze table 表名 compute statistics，分区表需加partition(分区字段)参数。该问题源于业务表从MySQL迁移到Hadoop平台后统计信息缺失。

2023-12-06 13:04:58 552 1

原创 Kylin执行cube报错：--hiveconf hive.merge.mapredfiles=false --hiveconf hive.auto.convert.join=true

该摘要记录了Kylin执行Hive任务时出现的配置错误及解决过程。用户遇到Hive任务失败问题，初始怀疑是Hive配置或服务未启动导致，但检查后问题依旧。最终通过增加内存分配解决了问题。这表明在内存资源不足的情况下，即使Hive配置正确且服务启动，任务仍可能失败。解决方案是适当增加内存资源分配。

2023-11-30 22:22:19 365

原创 sqoop导出数据到hive：Column repeated in partitioning columns

摘要：在使用Sqoop将数据导入Hive时出现"Column repeated in partitioning columns"错误，错误代码SemanticException[Error10035]。原因是分区字段与Hive表中已有字段重名导致冲突。解决方案是修改分区字段名称，通过--hive-partition-key参数指定不同的字段名。需要注意的是，如果分区字段的数据类型不匹配也会引发类似错误。该问题通常发生在Sqoop导出到Hive时添加了与表字段同名的分区字段的情况下。

2023-11-30 15:33:46 373

原创 sqoop导出oracle数据hive报错：java.sql.SQLSyntaxErrorException: ORA-00942: 表或视图不存在

【摘要】日志显示执行SQL查询"select * from crjz where (1=0)"时出现ORA-00942错误，提示表或视图不存在。原因是Oracle默认表名大写，而实际表名"crjzpxx_copy"为小写。解决方法是在表名外加双引号，如：--query "select * from "crjzpxx_copy" where $CONDITIONS"。该问题是由于Oracle对表名大小写敏感导致，通过双引号显式指定

2023-11-30 15:22:57 390

原创 sqoop导出数据到hive没有直接类型映射：Hive does not support the SQL type for column GUID

摘要：在Sqoop中使用--map-column-hive参数可实现Hive类型映射。对于GUID等特殊字段，可通过该参数指定为string类型。若需映射多个字段，可用逗号分隔，如--map-column-hiveGUID=string,TDE_REWRAPPED_KEY=string。该方法解决了Hive中无对应类型字段的数据导入问题。

2023-11-30 13:58:13 654

原创 HBase：start-hbase.sh启动日志文件冲突

执行start-hbase.sh时出现SLF4J多重绑定警告，原因是HBase和Hadoop路径下存在重复的slf4j-log4j12-1.7.25.jar包。解决方法：删除HBase安装目录/lib下的该jar包（命令示例：rm -rf /opt/install/hbase/lib/slf4j-log4j12-1.7.25.jar）。注意替换为自己的实际安装路径即可消除冲突。该问题不影响HBase正常启动，但建议处理以保持日志系统一致性。

2023-11-26 17:17:09 504 1

原创 HBase：执行stop-hbase.sh状态为stopping hbase...

摘要：执行stop-hbase.sh命令时出现长时间卡顿，通常是由于依赖服务未启动。正确操作步骤：1) 先启动zookeeper(zkServer.sh start)和hdfs(start-dfs.sh)；2) 再执行stop-hbase.sh。注意：若hdfs刚启动后仍无法停止HBase，建议等待集群资源释放或重试命令。关键点在于确保所有依赖服务正常运行后再操作HBase服务。

2023-11-26 17:04:57 735 1

原创 Linux：cp与scp使用

本文介绍了Linux中两种常用的复制命令cp和scp的使用方法。cp用于本地文件复制，示例包括文件复制（cp /home/file.txt /root/）和目录复制（cp -r /root/data /home/s）。scp用于跨节点文件传输，示例展示了文件传输（scp /opt/data/file.txt root@node2:/opt/data/）和目录传输（scp -r /opt/data root@node3:/opt/），并特别说明了如何指定端口号（scp -r -P2023 /opt/data

2023-11-24 17:20:24 511 1

m0_46241543的博客