自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

2301_80214672的博客

原创 pandas纯文本

操作顺序原则：先处理缺失值 → 修正异常值 → 标准化数据 → 最后分析方法选择逻辑删除用dropna()/drop_duplicates()填充用fillna()替换用replace()

2025-05-12 19:36:43 664

原创分布式配置纯文档

val df2016 = spark.read.option("header", "true").csv("hdfs:///air/2016年空气质量数据.csv")val df2017 = spark.read.option("header", "true").csv("hdfs:///air/2017年空气质量数据.csv")val df2018 = spark.read.option("header", "true").csv("hdfs:///air/2018年空气质量数据.csv")

2025-05-12 17:08:25 880

原创 pandas

操作顺序原则：先处理缺失值 → 修正异常值 → 标准化数据 → 最后分析方法选择逻辑删除用dropna()填充用fillna()替换用replace()

2025-05-12 15:12:08 708

原创 spark-3.1.1-yarn

提交用户自定义应用示例arg1 arg2。

2025-05-12 14:56:43 134

原创 Hadoop高可用集群部署

bashbash。

2025-05-12 14:54:47 480

原创大数据平台安装指南

主节点：主控制节点（主机名：master，IP：172.15.0.20）从节点：辅助工作节点（主机名：slave1、slave2，IP：172.15.0.21、172.15.0.22）

2025-05-12 14:53:35 727

原创分布式配置

通过以上完整配置和问题解决方案，您应该能够成功搭建Hive环境并进行数据处理。如仍有问题，建议检查各服务日志获取更详细的错误信息。（注：原文中个别路径拼写有误"/opt/module"和"/opt/module"混用，但为保持原内容未作修改）

2025-05-12 14:51:39 506

原创 HA(高可用)搭建

- sshfence：防止namenode脑裂，当脑裂时，会自动通过ssh到old-active将其杀掉，将standby切换为active -->-- nameservice 包含哪些namenode，为各个namenode起名 -->-- 配置名为nn1的namenode的http地址和端口号，web客户端 -->-- 故障转移 ha的hdfs集群自动切换namenode的开关 -->-- 定义hdfs集群中的namenode的ID号 -->

2025-04-19 19:33:19 689

原创 Spark on YARN 模式安装配置指南

方法2：如果没有安装包但已有Standalone安装，可以直接复制现有目录。# Spark on YARN cluster模式执行SparkPi示例。# Spark on YARN client模式执行SparkPi示例。# 如果已经有Standalone模式的安装，需要另外复制一份。# 将配置好的Spark分发到slave1和slave2节点。# 将更新后的环境变量分发到slave1和slave2节点。# 在slave1和slave2上刷新环境变量。# 启动Hadoop历史服务器（如果尚未启动）

2025-04-19 19:32:24 591

原创 Spark Standalone模式安装配置指南

export SPARK_MASTER_HOST=master # 注意这里应该是master而不是bigdata2022master。在master节点应该看到Master进程，在slave节点应该看到Worker进程。# 将配置好的Spark分发到slave1和slave2节点。# 编辑spark-env.sh，添加历史服务配置。# 将环境变量分发到slave1和slave2节点。# 在slave1和slave2上刷新环境变量。### 2.1 配置spark-env.sh。

2025-04-19 19:31:50 398

原创大数据搭建

**主节点**：JobHistoryServer、NodeManager、ResourceManager、DataNode、NameNode。- **从节点**：辅助工作节点（主机名：slave1、slave2，IP：172.15.0.21、172.15.0.22）- **主节点**：主控制节点（主机名：master，IP：172.15.0.20）ssh-copy-id slave1 # 提示时输入'yes'和密码。ssh-copy-id slave2 # 提示时输入'yes'和密码。

2025-04-19 19:27:46 409

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示

确定要删除当前文章？

取消删除