鹿衔`-CSDN博客

原创 Apache Spark 任务资源配置与优先级指南

特性YARN 模式Standalone 模式资源管理者总核数控制必须显式设置，否则贪婪占用单体核数(若不设则占用单节点所有核)内存管理严格限制 (Heap + Overhead)，超用即 Kill相对宽松，主要受限于 Worker 总内存Driver 资源Cluster模式下需预先申请运行在提交节点，受机器物理资源限制避免代码硬编码错误这会导致运维人员无法在不重新编译/修改代码的情况下调整资源。正确。

2026-01-29 11:07:35 710

原创 CDH 6.3.2 异构集群优化实施文档

现有 CDH 集群部署文档普遍脱离实际硬件规格，各组件参数几乎全部采用出厂默认值，亟需针对 HDFS、Yarn、Hive 等核心服务进行差异化调优。

2026-01-15 09:08:49 640

原创 Hadoop HDFS 核心机制与设计理念浅析

这个数值并非由服务器的 CPU 或内存大小决定，而是基于磁盘 I/O 特性和系统架构瓶颈的权衡结果。

2026-01-09 18:02:55 851

原创 PySpark 大规模造数任务优化与实施总结文档

之前生成千万级测试数据使用的Pyhive实现，生成数据耗时大，因此想测试Pyspark生成同数据量耗时多少。在 CDH 集群（10个节点）上，基于现有的小样本数据，快速生成千万级测试数据，并确保数据分布均匀、写入高效。: 6.3.2: 必须避开节点cdh245。

2026-01-09 17:58:22 677

原创 PySpark 核心原理与性能优化深度指南

如果你写了“先关联 10 亿行表，再过滤只取北京的数据”，Catalyst 会自动改成“先过滤北京的数据，再关联”，数据量瞬间减少 99%。：当数据量达到百万级，RDD 模式下 Python 与 JVM 的通信成本呈指数级上升，成为最大瓶颈。：你写了什么，它就跑什么。数据切片的最小单位。：数据全程在 JVM 的堆内/堆外内存中处理，没有 Python 序列化开销。：机器挂了，Spark 根据族谱重新算一遍丢失的分区，而不是重新算整个任务。：DataFrame 利用 JVM 的底层优化，全速吞吐数据。

2026-01-09 17:47:49 944

原创 PySpark 提交模式对比与实践推荐

submit_job240.py (方式一)最灵活。本质是。它利用 Spark 帮你把本地文件搬运到 HDFS 临时目录。适合开发迭代，但要注意不会自动搬运 Jar 的陷阱。submit_job.py (方式二)最规范。本质是。它假设资源已就位，效率最高，适合生产。test_spark2.py (方式三)最快验证。适合非业务的连通性测试。结论：在你的当前场景（可能是在调试环境或代码），方式一（240脚本）确实是最好用的，只要修正 Jar 包的分发参数，它既能保证环境随改随用，又能利用 YARN 进行分发。

2026-01-05 19:17:26 647 2

原创 StarRocks 4.0.2 (CDH 环境)与Paimon数据湖集成混合部署文档

JDK 版本报错现象:解决: StarRocks 4.0.2 强制要求JDK 17。必须在fe.conf和be.conf中显式配置。FE 启动失败 / 端口冲突现象:。原因: CDH 的 Zookeeper (zookeep) 占用了 9010。解决: 将fe.conf中的修改为19010。注意所有 FE 节点必须一致，且 helper 参数也要用新端口。YARN 端口冲突原因: StarRocks BE 默认为 8040，与 YARN NodeManager 冲突。解决: 在be.conf中将。

2025-12-13 14:21:29 946

原创 StarRocks 2.5.22 混合部署实战文档（CDH环境）

本次部署成功实现了在 CDH 集群上 StarRocks 2.5.22 与 Doris 2.1.10 的共存。端口管理：通过 "+10000" 策略及特殊处理 webserver 端口，完美避开了冲突。稳定性：解决了 JDK 版本告警及 FE 脑裂问题。局限性：确认 StarRocks 2.5 版本无法直接通过 External Catalog 支持 Paimon，后续计划升级至 StarRocks 3.x 以获得完整的湖仓分析能力。

2025-12-13 13:45:15 905

原创 Apache Doris 4.0.1 集群部署与 Paimon 数据湖集成实战文档

高可用性 (HA)：配置了nd1和nd3双 Metastore 节点，任意单点故障不影响 Doris 业务查询。性能优化 (CBO)：Doris 可以从 HMS 获取表的行数、文件大小等统计信息，生成更优的 Join 执行计划。数据准确性：HMS 模式能正确识别 Paimon/Hive 的 ACID 事务状态，避免读取到未提交或已删除的脏数据。运维规范：统一通过 Metastore 管理元数据，符合数仓建设标准。

2025-12-13 12:39:00 1088

原创 Apache Doris 2.1.10 集群部署与 Paimon 数据湖集成实战文档

操作系统: CentOS 7 (CDH 6.3.2 环境混合部署)节点配置CPU: 10核内存: 14GB (资源紧缺，需精细调优)存储: 400GB SSD部署用户bigdataJava 环境问题现象报错信息关键词原因分析解决方案Java 环境缺失启动脚本未找到 CDH 自带的 JDK 路径。在fe.conf和be.conf第一行添加。FE 启动权限错误或首次使用了sudo启动，导致文件归属变为 root，后续bigdata用户无法写入。1. 停止 root 进程。2.修复目录权限。

2025-12-13 12:11:27 1005

原创 CDH 6.3.2 集群外挂 Spark 3.5.7 (Paimon) 集成 Hue 实战指南

由于 CDH 默认环境未变更，原有的hive命令依然指向旧版本。针对 .sql 脚本的调度，需采用以下替代方案。

2025-12-04 15:43:56 1291 1

原创 CDH 6.3.2 集群外挂部署 Spark 3.5.7 连接 Paimon 1.1.1 （二）

本文档详细记录了在 CDH 6.3.2（Hadoop 3.0.0）集群环境下，通过外挂方式部署 Spark 3.5.7 客户端，并配置 Apache Paimon 1.1.1 支持的全过程。涵盖源码编译、环境配置、脚本封装及功能验证。

2025-12-04 15:24:53 1086

原创 CDH 6.3.2 集群外挂部署 Spark 3.5.7 连接 Paimon 1.1.1 （一）

为了解决如上出现的问题，需要在CDH 6.3.2 版本上编译支持java8，能对paimon 1.1.1 的表进行增删改查等操作。为了解决CDH 6.3.2 默认的 Hive sql on Spark 和 Spark sql （Spark版本为2.4.0）无法写入修改Paimon 1.1.1 版本的表格数据的问题。在终端执行下述语句，用于验证hive sql on spark对paimon表数据的更新操作。发现插入数据出现报错，因此hue上不能进行数据的插入，因此我在Flink SQL进行数据的插入。

2025-12-04 15:13:30 532

原创 CDH6.3.2集群Hive2Paimon的表迁移

- 1. 定义 Source Catalog (读取 Hive)'hive-conf-dir' = '/etc/hive/conf.cloudera.hive', -- CDH 标准配置路径'hadoop-conf-dir' = '/etc/hadoop/conf.cloudera.hdfs' -- CDH 标准配置路径-- 2. 定义 Target Catalog (写入 Paimon)

2025-11-27 21:19:53 941

原创通过Flink 1.19 客户端实现Flink集群连接 Kafka 基础测试报告

你会看到大量的 JSON 数据滚动，其中包含最新的 Update 和 Delete 操作记录（Key 相同的数据，后面的消息会覆盖前面的状态）。：Kafka 中没有数据，或者 Flink 任务没能从 Kafka 读到数据（可能是 Topic 名称不对，或者 Group ID 问题）。：Kafka 物理数据量（1400）与 Flink 逻辑状态量（1200）符合流处理的一致性语义。对于 Kafka 中的更新消息（后到的消息），Flink 会更新内存中对应 Key 的状态。

2025-11-23 14:28:31 767

原创通过Flink 1.19 客户端实现Flink集群连接paimon基础测试

python版本:3.8.20该测试旨在描述如何通过 Python 自动化脚本远程连接 Flink 集群，并对 Paimon 数据湖格式进行基础的 CRUD（增删改查）及压力测试。描述了一套基于 Pythonparamiko库实现的自动化测试流程。该流程通过 SSH 连接到部署了 Flink 客户端的远程服务器，利用提交 SQL 任务到 Flink on YARN 集群，完成针对 Paimon 表的批量读写、更新和删除操作，并进行数据一致性校验。

2025-11-23 14:17:51 726

原创 Flink 1.19 客户端部署与 YARN 远程提交指南

现目前是调研批流一体数仓架构，整体的流程图如下：同时为了资源隔离、灵活性、安全性和高可用，需要部署单独的客户端便于管理。：在独立客户端机器（xx.x.xx.214）上部署 Flink 1.19，并配置其向远程 CDH 集群（xx.x.xx.201-xx.x.xx205）的 YARN Session 提交 SQL 任务。

2025-11-23 13:43:11 1004

原创解决Flink on Yarn模式多Yarn Session会话提交

查看最新的application_1763460582895_0009是没有任务提交的，说明使用上述的-D execution.target=yarn-session参数设置可以实现多Yarn Session模式下，将sql文件提交到指定的Yarn Session。注意：如果是其他ID，如application_1763460582895_0009，没有报错，仍然是提交到最近存在的一个Yarn会话（这里是application_1763460582895_0008）

2025-11-18 20:10:07 424

原创 Linux系统彻底删除MySQL

在安装另一个MySQL版本之前一定要把之前MySQL版本给卸载干净。上面执行完后/etc/my.cnf不会删除掉，需要手动单独删除。则说明此时已尽卸载干净了。

2025-11-14 11:37:10 321

原创 APScheduler入门：轻松掌握Python任务调度

摘要：APScheduler是Python中强大的任务调度库，相当于一个智能闹钟，可在程序中实现自动化任务管理。其核心由调度器、任务存储、执行器和触发器四大组件构成：调度器协调任务执行，任务存储支持内存或数据库持久化，执行器提供线程/进程池选择，触发器支持date/interval/cron三种时间规则。该库灵活易用，适用于数据备份、定时报告、系统监控等场景，能无缝集成到各类Python项目中。文章还提供了基础代码示例，展示如何创建周期性任务。作为自动化任务调度的首选工具，APScheduler能帮助开发者

2025-11-13 21:08:18 677

原创 Flask入门

Flask 是一个“微框架（micro-framework）”，用于快速构建 Web 应用与 API。

2025-11-12 18:52:28 475

原创 Windows下安装Superset

新版本会警告Refusing to start due to insecure SECRET_KEY,修改config.py文件（从上述文件路径中找）跨域问题TALISMAN_ENABLED = True改为False。WTF_CSRF_ENABLED = True 改为 False。进入superset界面设置->角色列表(list Roles)查询Public是否权限已经和Gamma一致，主要是赋予以下权限。可以只设置用户名合密码，邮箱等可以不用设置。最后将所需字段进行可视化展示。

2025-11-11 15:31:30 1117

原创 MySQL主从复制搭建过程

主从复制是指将主数据库的DDL和DML操作通过二进制日志传到从库服务器中，然后在从库上对这些日志重新执行（也叫重做），从而使得从库和主库的数据保持同步。MySQL支持一台主库同时向多台从库进行复制，从库同时也可以作为其他从服务器的主库，实现链状复制。MySQL复制的优点1、主库出现问题，可以快速切换到从库提供服务2、实现读写分离，降低主库的访问压力3、可以在从库中执行备份，以避免备份期间影响主库服务。

2025-11-10 13:07:59 916

原创 Linux搭建MySQL

OS Version 选择 Linux - Generic (glibc 2.12) (x86, 64-bit);下载：mysql-5.7.44-linux-glibc2.12-x86_64.tar.gz。Operating System 选择 Linux Generic；Product Version 选择 5.7.44；操作系统: CentOS 7.9。MySQL版本: 5.7.44。

2025-11-10 12:51:22 414

原创 StarRocks各版本性能与兼容性对比测试-性能查询测试(三)

查询：SELECT * FROM dwd_essential_info_commercial_reg_info_no_index WHERE firm_eid = '93d7acab0cf696b5bf567b0b006f4501'；BE-2节点 [10.xx.xx.156:9101]BE-1节点 [10.xx.xx.154:9101]FE节点 [10.xx.xx.153:9101]测试类别: 基础查询-无索引。

2025-07-21 15:51:02 755

原创 StarRocks各版本性能与兼容性对比测试-性能查询测试(二)

测试完成后，结果将保存在results目录下，文件名格式为： performance_test_YYYYMMDD_HHMMSS.md。需要注意的是：测试StarRocks2.5.22版本时，不支持N-gram bloom filter索引查询和全文倒排索引查询。测试查询：SQL查询分为基础查询、BITMAP索引查询、Bloom Filter索引查询等类别。收集指定时间范围内的系统指标（CPU、内存、磁盘I/O、网络I/O）计算资源使用统计值（最小值、最大值、平均值、中位数、P95、P99）

2025-07-21 15:44:04 894

原创 StarRocks各版本性能与兼容性对比测试-性能查询测试(一)

本测试旨在对比不同版本StarRocks数据库在各种查询场景下的性能表现。通过对比分析多个维度的性能指标，为StarRocks版本选择和系统优化提供参考依据。

2025-07-15 17:53:44 2011

原创 StarRocks各版本性能与兼容性对比测试-数据存储分析

在10000w数据规模下，StarRocks的空间占用介于CSV和Hive之间（股东表45.34GB，企业表72.54GB），但存储倍率优于CSV（0.84和0.798）。但3.4.3的INSERT INTO SELECT在企业表导入中速率最高（107874条/s），优化了大数据量场景。企业信息表因单条数据量更大，导入速率普遍低于股东表（如DataX中企业表速率11109条/s vs 股东表19573条/s），但Broker Load和INSERT INTO SELECT仍能维持较高吞吐。

2025-07-15 17:36:51 1038

原创 StarRocks各版本性能与兼容性对比测试-导入方式（二）

在开始数据传输之前，通过读取一个空的 DataFrame（df_schema）来获取表结构信息，并调用 create_starrocks_table 函数创建 StarRocks 表。这确保了在数据插入之前目标表已经存在，避免了因表不存在而导致的错误。在 upload_to_starrocks 函数中，将每个批次的数据进一步分成更小的批次进行插入，减少每次插入的数据量。在处理每个批次的数据后，手动触发垃圾回收（gc.collect()），以及时释放不再使用的内存，进一步优化内存使用。

2025-07-11 17:28:19 417

原创 StarRocks各版本性能与兼容性对比测试-导入方式(一）

分区裁剪后仅扫描部分。

2025-07-10 17:06:10 385

原创 StarRocks各版本性能与兼容性对比测试-数据处理

在本地 Hive 中创建符合要求的股东信息表和企业信息表，并能够生成不同量级的伪数据，满足数据测试和的分析初步需求。实现自动化流程，能够自动获取 Hive 表结构，在 Hive 中创建对应的股东信息表和企业信息表，使用 faker 生成伪数据并上传到 HDFS 中，进而导入到 Hive 表中，最后将数据导入到 Starrocks 中，提高数据处理与迁移的效率和准确性。

2025-07-10 16:52:18 515

原创 StarRocks各版本性能与兼容性对比测试-Prometheus+Grafana安装部署

浏览器访问 http://服务器IP:3000 （默认端口3000），初始用户名/密码为 admin/admin （首次登录会提示修改密码）。登录Grafana（ http://服务器IP:3000 ），点击左侧菜单 Configuration > Data Sources。验证服务是否正常：访问 http://服务器IP:9090 （默认端口9090），看到Prometheus的Web界面即安装成功。在 URL 字段填写Prometheus的访问地址（ http://localhost:9090 ）

2025-07-09 16:18:37 1817

QXXDYL的博客