- 博客(11)
- 收藏
- 关注
原创 pandas纯文本
操作顺序原则:先处理缺失值 → 修正异常值 → 标准化数据 → 最后分析方法选择逻辑删除用dropna()/drop_duplicates()填充用fillna()替换用replace()
2025-05-12 19:36:43
664
原创 分布式配置纯文档
val df2016 = spark.read.option("header", "true").csv("hdfs:///air/2016年空气质量数据.csv")val df2017 = spark.read.option("header", "true").csv("hdfs:///air/2017年空气质量数据.csv")val df2018 = spark.read.option("header", "true").csv("hdfs:///air/2018年空气质量数据.csv")
2025-05-12 17:08:25
880
原创 pandas
操作顺序原则:先处理缺失值 → 修正异常值 → 标准化数据 → 最后分析方法选择逻辑删除用dropna()填充用fillna()替换用replace()
2025-05-12 15:12:08
708
原创 大数据平台安装指南
主节点:主控制节点(主机名:master,IP:172.15.0.20)从节点:辅助工作节点(主机名:slave1、slave2,IP:172.15.0.21、172.15.0.22)
2025-05-12 14:53:35
727
原创 分布式配置
通过以上完整配置和问题解决方案,您应该能够成功搭建Hive环境并进行数据处理。如仍有问题,建议检查各服务日志获取更详细的错误信息。(注:原文中个别路径拼写有误"/opt/module"和"/opt/module"混用,但为保持原内容未作修改)
2025-05-12 14:51:39
506
原创 HA(高可用)搭建
- sshfence:防止namenode脑裂,当脑裂时,会自动通过ssh到old-active将其杀掉,将standby切换为active -->-- nameservice 包含哪些namenode,为各个namenode起名 -->-- 配置名为nn1的namenode的http地址和端口号,web客户端 -->-- 故障转移 ha的hdfs集群自动切换namenode的开关 -->-- 定义hdfs集群中的namenode的ID号 -->
2025-04-19 19:33:19
689
原创 Spark on YARN 模式安装配置指南
方法2:如果没有安装包但已有Standalone安装,可以直接复制现有目录。# Spark on YARN cluster模式执行SparkPi示例。# Spark on YARN client模式执行SparkPi示例。# 如果已经有Standalone模式的安装,需要另外复制一份。# 将配置好的Spark分发到slave1和slave2节点。# 将更新后的环境变量分发到slave1和slave2节点。# 在slave1和slave2上刷新环境变量。# 启动Hadoop历史服务器(如果尚未启动)
2025-04-19 19:32:24
591
原创 Spark Standalone模式安装配置指南
export SPARK_MASTER_HOST=master # 注意这里应该是master而不是bigdata2022master。在master节点应该看到Master进程,在slave节点应该看到Worker进程。# 将配置好的Spark分发到slave1和slave2节点。# 编辑spark-env.sh,添加历史服务配置。# 将环境变量分发到slave1和slave2节点。# 在slave1和slave2上刷新环境变量。### 2.1 配置spark-env.sh。
2025-04-19 19:31:50
398
原创 大数据搭建
**主节点**:JobHistoryServer、NodeManager、ResourceManager、DataNode、NameNode。- **从节点**:辅助工作节点(主机名:slave1、slave2,IP:172.15.0.21、172.15.0.22)- **主节点**:主控制节点(主机名:master,IP:172.15.0.20)ssh-copy-id slave1 # 提示时输入'yes'和密码。ssh-copy-id slave2 # 提示时输入'yes'和密码。
2025-04-19 19:27:46
409
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人