自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 pandas纯文本

操作顺序原则:先处理缺失值 → 修正异常值 → 标准化数据 → 最后分析方法选择逻辑删除用dropna()/drop_duplicates()填充用fillna()替换用replace()

2025-05-12 19:36:43 664

原创 分布式配置纯文档

val df2016 = spark.read.option("header", "true").csv("hdfs:///air/2016年空气质量数据.csv")val df2017 = spark.read.option("header", "true").csv("hdfs:///air/2017年空气质量数据.csv")val df2018 = spark.read.option("header", "true").csv("hdfs:///air/2018年空气质量数据.csv")

2025-05-12 17:08:25 880

原创 pandas

操作顺序原则:先处理缺失值 → 修正异常值 → 标准化数据 → 最后分析方法选择逻辑删除用dropna()填充用fillna()替换用replace()

2025-05-12 15:12:08 708

原创 spark-3.1.1-yarn

提交用户自定义应用示例arg1 arg2。

2025-05-12 14:56:43 134

原创 Hadoop高可用集群部署

bashbash。

2025-05-12 14:54:47 480

原创 大数据平台安装指南

主节点:主控制节点(主机名:master,IP:172.15.0.20)从节点:辅助工作节点(主机名:slave1、slave2,IP:172.15.0.21、172.15.0.22)

2025-05-12 14:53:35 727

原创 分布式配置

通过以上完整配置和问题解决方案,您应该能够成功搭建Hive环境并进行数据处理。如仍有问题,建议检查各服务日志获取更详细的错误信息。(注:原文中个别路径拼写有误"/opt/module"和"/opt/module"混用,但为保持原内容未作修改)

2025-05-12 14:51:39 506

原创 HA(高可用)搭建

- sshfence:防止namenode脑裂,当脑裂时,会自动通过ssh到old-active将其杀掉,将standby切换为active -->-- nameservice 包含哪些namenode,为各个namenode起名 -->-- 配置名为nn1的namenode的http地址和端口号,web客户端 -->-- 故障转移 ha的hdfs集群自动切换namenode的开关 -->-- 定义hdfs集群中的namenode的ID号 -->

2025-04-19 19:33:19 689

原创 Spark on YARN 模式安装配置指南

方法2:如果没有安装包但已有Standalone安装,可以直接复制现有目录。# Spark on YARN cluster模式执行SparkPi示例。# Spark on YARN client模式执行SparkPi示例。# 如果已经有Standalone模式的安装,需要另外复制一份。# 将配置好的Spark分发到slave1和slave2节点。# 将更新后的环境变量分发到slave1和slave2节点。# 在slave1和slave2上刷新环境变量。# 启动Hadoop历史服务器(如果尚未启动)

2025-04-19 19:32:24 591

原创 Spark Standalone模式安装配置指南

export SPARK_MASTER_HOST=master # 注意这里应该是master而不是bigdata2022master。在master节点应该看到Master进程,在slave节点应该看到Worker进程。# 将配置好的Spark分发到slave1和slave2节点。# 编辑spark-env.sh,添加历史服务配置。# 将环境变量分发到slave1和slave2节点。# 在slave1和slave2上刷新环境变量。### 2.1 配置spark-env.sh。

2025-04-19 19:31:50 398

原创 大数据搭建

**主节点**:JobHistoryServer、NodeManager、ResourceManager、DataNode、NameNode。- **从节点**:辅助工作节点(主机名:slave1、slave2,IP:172.15.0.21、172.15.0.22)- **主节点**:主控制节点(主机名:master,IP:172.15.0.20)ssh-copy-id slave1 # 提示时输入'yes'和密码。ssh-copy-id slave2 # 提示时输入'yes'和密码。

2025-04-19 19:27:46 409

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除