- 博客(29)
- 收藏
- 关注
原创 Hive on Spark && Spark on Hive配置
本文详细介绍了Hive与Spark集成的两种配置方式:Hive on Spark和Spark on Hive。Hive on Spark通过修改Hive执行引擎为Spark,提升计算效率但需注意内存配置;Spark on Hive则让Spark直接访问Hive元数据,提供更灵活的数据处理能力。配置步骤包括环境变量设置、配置文件修改、HDFS目录创建、依赖文件上传等关键操作,并提供了测试方法和中文乱码解决方案。两种方式都实现了Hive与Spark的优势互补,可根据实际需求选择适合的集成方案。
2025-11-22 11:37:29
130
原创 聊聊关于hive“中文乱码”问题
摘要:在基于Docker的RockyLinux8大数据集群中迁移CSV数据到Hive时,遇到两个关键问题:数据带双引号和中文乱码。双引号问题通过使用OpenCSVSerde指定引号字符解决。中文乱码问题排查了元数据库编码、MySQL配置、Hive配置和文件编码后,最终通过在hive-env.sh中添加-Dfile.encoding=UTF-8参数强制JVM使用UTF-8编码得以解决。该方案确保了Hive处理中文数据的正确性,解决了困扰两天的编码问题。
2025-11-11 15:56:40
1744
原创 FAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask
摘要 在使用Docker部署的大数据集群测试Hive时,执行简单的聚合查询报错(MapRedTask返回码2)。经排查发现,由于容器缺少find命令导致MapReduce任务失败。解决方法为:1)通过YARN日志定位到缺少find命令;2)下载findutils RPM包并安装到容器中。该案例提醒我们,Docker化大数据组件时需确保基础Linux命令完整,同时类似错误可能有多种原因,需结合具体日志分析解决。
2025-11-11 14:39:11
270
原创 docker启动容器报错:Error response from daemon: network b295f6993316da7f088e1d not found
摘要 处理Docker容器网络冲突问题的经验总结:在部署grafana时由于共享网络导致容器启动失败。通过分析发现,使用同一网络的hadoop集群容器未启动,但网络已被grafana容器删除。提供了三种解决方案:1) 导出/导入容器重建网络;2) 完全重建所有容器;3) 采用网络断连重建方式(最终方案)。详细说明了使用docker network disconnect强制断开旧网络、docker ps查看网络连接情况以及docker network connect连接新网络的具体命令和参数说明。
2025-11-07 09:21:42
317
原创 Docker&Docker-compose在线部署和离线部署
文章摘要: 本文介绍了Docker在RockyLinux 9.6系统上的在线和离线安装方法。在线安装包括更新系统、添加存储库、安装Docker组件及设置用户权限等步骤。离线安装则需先下载Docker和Docker Compose安装包,解压配置后手动启动服务。两种方式都提供了详细的命令行操作指南,并包含服务启动、权限设置和环境变量配置等关键步骤,最后通过版本验证确认安装成功。
2025-11-07 07:48:49
989
原创 重装RockyLinux服务器(超详细)
摘要 本文介绍了如何重装RockyLinux服务器以替代不再维护的CentOS 7/8系统。主要内容包括:通过U盘启动进入BIOS设置,选择语言和自定义分区(建议分配/boot、biosboot/efi、swap空间),禁用KDUMP,选择最小安装模式并设置密码。此外,还详细说明了如何配置网卡IP地址及删除多余IP地址的方法。
2025-11-06 14:19:03
379
原创 使用Docker部署Grafana集成TDengine
本文介绍了使用Docker部署Grafana并集成TDengine数据库的完整流程。主要内容包括:通过Docker命令安装Grafana并自动加载TDengine插件;使用docker-compose配置自动化部署方案,包含TDengine和Grafana的服务配置;实现数据源连接测试和可视化面板创建。文中提供了详细的YAML配置示例和操作截图,涵盖了从环境准备、容器部署到数据可视化展示的全过程,最终实现Grafana与TDengine的集成应用。
2025-11-06 12:54:47
1023
原创 TDengine3.3.6.13集群部署
摘要: 本文详细介绍了TDengine数据库集群的部署流程,涵盖环境准备、安装配置和集群管理。主要内容包括:1) 规划3节点服务器架构;2) 基础环境配置(FQDN解析、hosts映射、端口开放等);3) 服务端与客户端安装注意事项;4) 关键配置文件参数修改(firstEp/fqdn);5) 节点动态加入/删除操作及常见错误处理(如offline状态);6) 常用集群管理命令(show dnodes/create dnode等)。特别强调所有节点需保持版本一致,配置文件需按节点差异化调整,并提供了防火墙和
2025-11-05 08:41:57
1479
原创 Hadoop完全分布式部署(超详细)
Hadoop完全分布式部署指南 本文详细介绍了Hadoop 3.1.3版本的完全分布式部署方案,包含两种集群模式: 非高可用模式:NameNode单点部署,含3节点规划(NameNode+DataNode、DataNode+ResourceManager、DataNode+SecondaryNameNode) 高可用模式:双NameNode部署配置 部署步骤包括: 环境变量配置 核心配置文件修改(core-site.xml、hdfs-site.xml、yarn-site.xml、mapred-site.xm
2025-11-04 13:26:09
963
原创 Zookeeper完全分布式部署(超详细)
摘要: 本文介绍了Zookeeper 3.5.7版本的分布式集群部署过程。在三台服务器(node1-3)上分别安装Zookeeper,通过修改zoo.cfg配置文件设置数据存储路径,并为每台服务器创建专属myid标识文件。关键配置包括添加集群节点信息(server.2/3/4)和端口映射(2888:3888)。部署完成后,使用scp命令分发安装文件至其他节点,修改对应myid值后分别启动服务,通过status命令验证集群状态,支持前台启动查看日志。
2025-11-04 11:25:51
323
原创 System is booting up. Unprivileged users are not permitted to log in yet.限制非特权(root)用户登录
摘要: 在Docker搭建Hadoop集群时,非root用户登录失败,提示"Unprivileged users are not permitted to log in",这是PAM的pam_nologin模块在系统启动期间限制非特权用户登录所致,可能因服务启动失败或依赖问题引发。解决方法包括: 检查并删除/etc/nologin文件; 若未解决,全局查找nologin文件(如/run/nologin)并删除; 错误可能表现为SSH登录失败或"Permission denied
2025-11-02 20:52:10
428
原创 远程连接root用户失败
远程连接root用户失败可能由三个原因导致:1)未安装SSH服务;2)22端口被占用或防火墙阻止;3)系统默认禁用root远程登录。解决方法主要是修改SSH配置:安装openssh-server,检查端口设置,关闭防火墙,并在/etc/ssh/sshd_config中添加"PermitRootLogin yes"配置项,最后执行source命令使配置生效即可实现root远程登录。
2025-10-30 15:41:28
176
原创 U盘-------linux服务器互相拷贝文件
本文介绍了在Linux服务器上使用U盘拷贝文件的方法。主要步骤包括:1)插入U盘后通过lsblk或fdisk命令确认U盘设备;2)在/mnt目录下创建挂载点并挂载U盘;3)使用cp命令实现服务器与U盘间的文件互传;4)最后卸载U盘。该方法适用于内网环境下服务器与外部设备间的文件交换,操作简单实用。
2025-10-30 13:18:20
388
原创 Rocky Linux9.6 & CentOS Linux安装MySQL8
本文详细介绍了在Rocky Linux 9.6系统上安装MySQL 8.0.43的完整步骤。主要内容包括:1) 确认系统glibc版本兼容性;2) 从官网下载对应版本的MySQL;3) 详细安装配置过程,包括创建目录、用户权限设置、配置文件编写;4) 初始化数据库、修改密码、设置远程访问;5) 将MySQL注册为系统服务并配置环境变量。该指南同样适用于CentOS系统用户,提供了从安装到配置的一站式解决方案,并特别强调了版本兼容性检查和防火墙设置等关键注意事项。
2025-10-28 16:22:33
1604
原创 java heap space内存溢出
【摘要】MapReduce作业(job_1706155077266_0202)在执行过程中因Java堆内存不足导致失败,累计CPU时间为1小时26分30秒。错误诊断显示多个map任务(如task_000000等)出现"Error: Java heap space"问题,其中最严重任务失败4次。解决方案建议在mapred-site.xml中调整内存配置:将map阶段内存设为10150MB(JVM堆内存6144MB),reduce阶段内存设为10150MB(JVM堆内存8120MB)。
2024-05-11 10:35:49
1051
1
原创 Linux:安装rh-php72
摘要:在CentOS安装Zabbix时遇到缺少rh-php72依赖问题,可能是由于软件源配置不当。解决方法包括:1)检查是否已安装rh-php72;2)尝试直接安装;3)若报错,需编辑或创建/etc/yum.repos.d/CentOS-SCLo-scl-rh.repo文件,确保enabled=1;4)更新yum缓存后重新安装。该问题通常与SCL软件源配置有关,通过修改repo文件并启用正确源即可解决。
2023-12-13 11:25:15
3100
1
原创 hive:insert into/overwrite插入分区详解
本文分享了数据从ODS层到DWD层清洗过程中的SQL操作经验。重点介绍了两种数据写入方式:INSERT INTO用于数据追加,需注意字段匹配;INSERT OVERWRITE用于数据覆盖,但不能指定字段。特别强调了分区表操作时partition的正确使用顺序,避免踩坑。这些实践技巧对大数据ETL开发中的标准化处理具有参考价值。
2023-12-06 18:18:11
3022
1
原创 sqoop导出数据到hive使用desc formatted查询表numRows为0
【摘要】数据仓库项目中遇到ODS层表数据量统计效率问题:直接从表计算行数效率低下,需通过元数据获取。发现Hive表desc formatted显示的numRows为0,因统计信息未更新导致。解决方案是手动更新统计信息:非分区表使用analyze table 表名 compute statistics,分区表需加partition(分区字段)参数。该问题源于业务表从MySQL迁移到Hadoop平台后统计信息缺失。
2023-12-06 13:04:58
552
1
原创 Kylin执行cube报错:--hiveconf hive.merge.mapredfiles=false --hiveconf hive.auto.convert.join=true
该摘要记录了Kylin执行Hive任务时出现的配置错误及解决过程。用户遇到Hive任务失败问题,初始怀疑是Hive配置或服务未启动导致,但检查后问题依旧。最终通过增加内存分配解决了问题。这表明在内存资源不足的情况下,即使Hive配置正确且服务启动,任务仍可能失败。解决方案是适当增加内存资源分配。
2023-11-30 22:22:19
365
原创 sqoop导出数据到hive:Column repeated in partitioning columns
摘要:在使用Sqoop将数据导入Hive时出现"Column repeated in partitioning columns"错误,错误代码SemanticException[Error10035]。原因是分区字段与Hive表中已有字段重名导致冲突。解决方案是修改分区字段名称,通过--hive-partition-key参数指定不同的字段名。需要注意的是,如果分区字段的数据类型不匹配也会引发类似错误。该问题通常发生在Sqoop导出到Hive时添加了与表字段同名的分区字段的情况下。
2023-11-30 15:33:46
373
原创 sqoop导出oracle数据hive报错:java.sql.SQLSyntaxErrorException: ORA-00942: 表或视图不存在
【摘要】日志显示执行SQL查询"select * from crjz where (1=0)"时出现ORA-00942错误,提示表或视图不存在。原因是Oracle默认表名大写,而实际表名"crjzpxx_copy"为小写。解决方法是在表名外加双引号,如:--query "select * from "crjzpxx_copy" where $CONDITIONS"。该问题是由于Oracle对表名大小写敏感导致,通过双引号显式指定
2023-11-30 15:22:57
390
原创 sqoop导出数据到hive没有直接类型映射:Hive does not support the SQL type for column GUID
摘要:在Sqoop中使用--map-column-hive参数可实现Hive类型映射。对于GUID等特殊字段,可通过该参数指定为string类型。若需映射多个字段,可用逗号分隔,如--map-column-hiveGUID=string,TDE_REWRAPPED_KEY=string。该方法解决了Hive中无对应类型字段的数据导入问题。
2023-11-30 13:58:13
654
原创 HBase:start-hbase.sh启动日志文件冲突
执行start-hbase.sh时出现SLF4J多重绑定警告,原因是HBase和Hadoop路径下存在重复的slf4j-log4j12-1.7.25.jar包。解决方法:删除HBase安装目录/lib下的该jar包(命令示例:rm -rf /opt/install/hbase/lib/slf4j-log4j12-1.7.25.jar)。注意替换为自己的实际安装路径即可消除冲突。该问题不影响HBase正常启动,但建议处理以保持日志系统一致性。
2023-11-26 17:17:09
504
1
原创 HBase:执行stop-hbase.sh状态为stopping hbase...
摘要:执行stop-hbase.sh命令时出现长时间卡顿,通常是由于依赖服务未启动。正确操作步骤:1) 先启动zookeeper(zkServer.sh start)和hdfs(start-dfs.sh);2) 再执行stop-hbase.sh。注意:若hdfs刚启动后仍无法停止HBase,建议等待集群资源释放或重试命令。关键点在于确保所有依赖服务正常运行后再操作HBase服务。
2023-11-26 17:04:57
735
1
原创 Linux:cp与scp使用
本文介绍了Linux中两种常用的复制命令cp和scp的使用方法。cp用于本地文件复制,示例包括文件复制(cp /home/file.txt /root/)和目录复制(cp -r /root/data /home/s)。scp用于跨节点文件传输,示例展示了文件传输(scp /opt/data/file.txt root@node2:/opt/data/)和目录传输(scp -r /opt/data root@node3:/opt/),并特别说明了如何指定端口号(scp -r -P2023 /opt/data
2023-11-24 17:20:24
511
1
原创 Hadoop:stop-dfs.sh停止服务报错
摘要:Hadoop集群操作时出现错误,提示缺少HDFS相关用户定义。原因是以root用户操作HDFS服务,而Hadoop默认出于安全考虑禁止root用户操作。解决方法是在环境变量中定义HDFS各组件对应的用户为root,包括namenode、datanode等。对于非HA集群,可不设置ZKFC相关变量。
2023-11-24 14:56:04
987
1
原创 Linux修改主机名称
修改Linux主机名称的方法:1) 编辑/etc/hostname文件;2) 执行hostnamectl set-hostname命令设置新名称(如node1)。修改后需重新打开会话才能生效。查看当前主机名可使用hostname命令或查看/etc/hostname文件内容。此操作涉及系统配置文件修改,需注意权限问题。
2023-11-24 13:48:31
422
1
原创 Linux配置hosts映射文件(附加windows)
本文介绍了在Linux和Windows系统中配置IP映射的方法。Linux系统通过编辑/etc/hosts文件,添加"IP地址 主机名"格式的映射(如10.55.210.110 node1)。Windows系统则需修改C:\Windows\System32\drivers\etc\hosts文件。这种配置方式简单高效,适用于大数据集群部署等需要频繁访问特定IP的场景。
2023-11-23 21:12:25
806
原创 Linux默认(22)端口免密登录与指定端口免密登录
摘要:免密登录基于公钥加密机制,通过ssh-keygen生成RSA密钥对(公钥/私钥),将公钥上传至目标主机完成授权。具体步骤:1)在本地执行ssh-keygen -t rsa生成密钥;2)使用ssh-copy-id命令将公钥上传至目标主机(支持默认22端口或指定端口),若配置了hosts映射可直接使用主机名。验证时通过公私钥匹配机制完成认证,无需输入密码。
2023-11-23 20:35:50
1033
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅