潘达斯奈基~-CSDN博客

原创 Spark踩坑：如何优化pandas_udf中的多维数组传输效率

原始特征数据通常是多维时间序列（如形状为(batch_size, sequence_length, feature_size)），在Spark和Python之间传输时遇到性能瓶颈。在最近项目中，需要将深度学习算法部署到spark集群中运行，部署过程中遇到一个坑，在此记录分享一下。ONNX模型在每个Executor进程启动时仅加载一次，后续推理复用该实例，消除IO开销。直接在节点内存中执行，遵循“数据本地性”原则，避免了数据在网络中来回传输。在了解了技术实现之后，来看下技术原理，即“为什么”这么做有效。

2026-03-12 11:00:03 344

原创软件稀缺性的终结：AI 时代的数字助理与长尾革命

AI时代正在重塑软件开发和知识获取方式。Andrej Karpathy通过LLM智能体快速定制个人健康追踪仪表盘的案例显示，传统应用商店模式正被1小时就能完成的定制化开发取代。这种转变使软件能精准满足个性化需求，实现"工具适应人"的体验。同时，未来产品需要提供AI原生接口，打破信息壁垒，让机器直接理解数据。在通用知识被大模型商品化的背景下，个人独特体验和实时数据将成为核心资产。由LLM动态编排的"阅后即焚"式定制软件，将连接物理生活与数字世界，形成专属个人的智能助理系

2026-03-09 21:59:10 361

原创 Claude Code实践5：Ralph Wiggum

Ralph Loop是一种AI自主编程技术，通过无限循环机制让Claude Code模型持续迭代完成任务。其核心是while true循环结合恒定提示词，使AI能自主编写代码、运行测试并修复问题。使用时需提供明确任务描述、完成标准和迭代上限，适用于有明确验证标准的开发任务。典型应用包括全栈开发、代码重构和错误修复等场景。该技术实现了AI编程的自动化，但需要人工监督设置边界，不适合需要主观判断的任务。

2026-03-08 08:59:15 345

原创 Claude Code实践4：Claude Code开发规范与团队协作指南梳理

本文回顾了Claude Code的使用经验，重点介绍了代码规范与开发流程的最佳实践。在代码规范方面，通过Rules（项目级强制规范）和Skills（可复用知识模块）系统化管理编码标准，涵盖命名规范、文件组织、代码风格、注释规则、错误处理和安全实践。开发流程部分强调标准化与自动化协作，利用Git Hooks和权限控制确保质量。核心价值在于将个人/团队的编码习惯固化为可自动加载的配置，实现一致性并减少重复解释，提升开发效率与代码质量。（149字）

2026-02-25 15:26:37 1206

原创 Claude Code实践3：happy coder随时随地编程

Happy Coder是一款专为vibe coding爱好者设计的远程编程工具，支持跨平台访问（iOS/Android/Web/桌面端）。核心功能包括：通过手机远程控制电脑编程、端到端加密保障代码安全、实时同步和推送通知。系统由happy-coder客户端、happy-cli命令行工具和happy-server后端组成，支持Claude/Codex等AI编程助手。安装只需三步：下载客户端、npm安装CLI、扫码配对设备。该工具特别适合需要随时调试代码的场景，结合AI能力可实现全天候不间断编程，解决开发者离开

2026-02-13 20:55:15 522

原创 Docker部署Hadoop+Flink集群

本文介绍了使用Docker部署Hadoop和Flink集群的详细过程。作者基于CentOS镜像构建了包含SSH、JDK和Hadoop的基础镜像，创建了三台容器组成Hadoop集群。通过自定义Docker网络实现容器间通信，配置SSH免密登录和hosts文件确保节点互联。文章详细说明了Hadoop核心配置文件的修改方法，包括core-site.xml、hdfs-site.xml等，并强调了版本兼容性的重要性。最后通过启动NameNode、DataNode等进程验证集群运行状态。该方案实现了环境标准化和配置统一

2026-02-09 23:56:59 1281 1

原创 Claude Code实践2：《The complete claude code tutoria》阅读心得

作者是前亚马逊、迪士尼资深工程师使用claude code的经验，干货满满，推荐阅读原文以下是自己的一个阅读心得，分享给大家。

2026-01-14 08:10:19 604

原创万字详解Flink基础知识

Apache Flink 是一款，以其和而闻名。它能高效地处理（批处理）和（流处理）数据流，是构建实时数仓、在线机器学习、复杂事件处理等应用的基石。下面我将梳理 Flink 的核心概念、关键特性、典型应用场景及学习路径。

2026-01-12 07:59:06 694

原创 Claude Code实践1：Obsidian-skills

Obsidian Skills是由Obsidian CEO开源的一个项目，旨在让AI（如Claude Code）学会操作Obsidian笔记软件。该项目通过提供"技能包"（MCP协议），使AI能够理解和生成符合Obsidian标准的文件格式，包括Markdown、.base文件和JSON Canvas。这解决了三个核心痛点：AI不懂Obsidian特有语法、复杂文件难以手动编写以及高级功能配置门槛高的问题。用户只需在Claude中输入指令，AI就能自动生成结构化的笔记内容、数据库视图或思

2026-01-10 20:55:56 1731

原创数据治理之服务水平协议（SLA）

本文探讨了数据治理中的服务水平协议（SLA）及其应用。SLA是服务提供方与接受方关于服务水平的正式约定，包含服务内容、量化目标、测量方法和责任条款。在数据治理中，SLA用于确保数据质量、时效性和可用性，明确各方责任。文章详细介绍了SLA的核心要素，包括服务指标（SLI）、目标值（SLO）和协议内容（SLA），并阐述了数据治理中常见的SLA类型：数据平台级、数据产品级、数据质量级和治理流程级。同时，文章还提供了SLA的实施步骤，从识别关键数据资产到设定合理目标值，再到建立监控机制。通过SLA的实施，组织能

2026-01-05 07:48:11 1171

原创数仓建模1-核心框架

数据仓库建模的核心在于搭建业务数据与分析应用之间的桥梁，主要包含三方面工作：业务与数据理解、结构化组织数据、支撑实际应用场景。主流理论包括Inmon的企业级3NF建模、Kimball的维度建模和Data Vault的可扩展模型，互联网公司常用分层架构（ODS/DIM/DWD/DWS/ADS）结合Kimball维度建模。建模流程包括业务调研、指标体系设计、维度建模、ETL实现等环节，最终形成统一的表结构和指标口径。离线数仓采用T+1批处理模式，而实时数仓则基于流式计算框架，两者在技术架构上有所差异但建模思路相

2025-12-29 22:42:59 912

原创 spark性能优化6：内存管理

资源配置根据数据量和计算类型设置合理的（如 8G-16G），避免过大（GC 压力）或过小（资源浪费）。根据集群总核心数设置合适的，确保充分利用集群 CPU。参数调优开启 Kryo。启用堆外内存。动态调整内存比例：计算密集型调高；缓存密集型调高。代码优化减少对象创建：在算子函数中复用对象，避免在循环中new。使用高效算子代替groupByKey。明智地使用缓存：选择合适的，并及时。优先广播小表：避免不必要的 Shuffle。持续监控频繁查看 Spark UI。

2025-12-27 19:16:43 778

原创 spark性能优化5：资源配置与并行度优化

没有“银弹”配置：最优配置取决于你的数据量、计算复杂度、集群资源（CPU、内存、网络）和具体作业特性。务必通过监控和实验来找到最佳平衡点。优先级第一步：确保应用不 OOM没有明显的数据倾斜（通过 Spark UI 诊断）。第二步：在资源充足的前提下，提高并行度，充分利用集群 CPU 核心。第三步优化内存分配等），减少 GC 时间。第四步优化代码（使用 Kryo、避免groupByKey、使用广播变量等）。牢记“移动计算比移动数据更划算”

2025-12-27 19:13:59 831

转载蒸汽、钢铁与无限智慧

《蒸汽、钢铁与无限智慧》探讨了技术革命如何重塑社会结构。文章以钢铁和蒸汽机为隐喻，分析人工智能将如何彻底改变知识工作：个体工作者将从"骑自行车"升级为"驾驶汽车"；组织架构将像钢铁建筑般突破规模限制；知识经济将从"佛罗伦萨"式小城演变为"东京式"巨型体系。作者指出，我们正处在"替换水车"的过渡阶段，真正的变革在于重新设计工作流程，让AI成为组织的"钢铁框架"和"蒸汽动力&quot

2025-12-25 22:08:31 273

原创 spark性能优化4：数据倾斜

数据倾斜是分布式计算中数据分布不均衡的现象，会导致部分任务处理过载而拖慢整体性能。本文系统分析了数据倾斜的成因、识别方法及解决方案。通过Spark Web UI可定位倾斜的Stage和Task，常见于Shuffle类算子如groupBy、join等。优化策略包括：调整并行度、过滤异常Key、两阶段聚合、优化Join策略等，并介绍了Spark 3.0+的AQE自动倾斜处理功能。文章提供了流程图和对比表格，帮助开发者根据场景选择合适方案，平衡处理效果与实现复杂度。

2025-12-24 23:31:15 1052

原创 spark性能优化3：小文件问题

Spark中小文件问题严重影响性能，主要表现为NameNode内存压力、任务调度低效、存储浪费和I/O开销大。产生原因包括数据源本身小文件、过度动态分区、Task设置过多等。解决方案分三方面：1)源头预防：使用DISTRIBUTE BY控制输出文件数，调整并行度参数；2)写入时自动合并：开启spark.sql.mergeSmallFiles.enabled并设置阈值；3)事后补救：通过repartition/coalesce重写数据，或使用CombineFileInputFormat合并读取。此外还可调优m

2025-12-24 22:07:01 1390

原创 spark性能优化2：Window操作和groupBy操作的区别

Spark操作性能差异分析：Window函数与GroupBy对比摘要：本文比较了Spark中Window函数和GroupBy操作的性能差异。GroupBy操作总会触发shuffle，而Window函数在数据已按partitionBy列分区时可避免shuffle。两者核心区别在于：Window函数添加计算列不改变行数，GroupBy则聚合减少行数。通过分段计数过滤案例对比，Window版本只需单次过滤且避免shuffle，而GroupBy版本需多次shuffle（聚合+连接）。Window函数更高效，能保

2025-11-07 11:09:59 362

原创 spark性能优化1：通过依赖关系重组优化Spark性能：宽窄依赖集中处理实践

在进行优化之前，我们必须先对Spark的两种核心依赖关系——宽依赖（Wide Dependency）和窄依赖（Narrow Dependency）有清晰的认识。窄依赖 (Narrow Dependency)窄依赖指的是父RDD（或DataFrame）的每个分区最多只被子RDD的一个分区所使用。这种关系非常“专一”，计算可以在各个分区内部独立完成，不需要等待其他分区的数据。常见的窄依赖转换有mapfilterselect等。[父RDD分区A] -> [子RDD分区A']

2025-10-17 10:52:00 764

原创在使用spark的applyInPandas方法过程中,遇到类型冲突问题如何解决

Spark与Pandas在数据类型系统上存在本质差异，导致使用applyInPandas方法时容易出现类型冲突问题。核心矛盾在于Spark的强类型系统与Pandas的灵活类型系统之间的转换，而Arrow作为中间桥梁会严格校验类型。常见冲突包括时间戳、字符串和空值处理等。解决方案应从数据修正、显式类型声明和配置调整三方面入手，建议优先使用Spark原生算子处理数据。版本一致性检查和分批次处理也是避免问题的有效方法。

2025-10-17 10:09:31 1106

原创解决comet等待网络连接的问题

关于下载comet后一直处于等待网络连接的问题，该如何解决。命令，并且这些变量只在当前这个 CMD 窗口中生效。在 Windows CMD 中，你需要使用。从网上reddit上找到了一个解决方法。

2025-10-08 11:01:06 2168 6

原创 Docker简介

数据卷是一个虚拟目录，是容器内目录和宿主机目录之间映射的桥梁。卷是虚拟的，但是对应的宿主机的目录是真实的，容器的目录跟数据卷之间挂载，这样桥梁就搭建起来了，实现宿主机和容器目录之间的双向绑定，容器内的目录更改，宿主机的目录也会更改，宿主机上有非常高级的编辑器，所以在宿主机上进行更改就方便多了镜像就是包含了应用程序、程序运行的系统函数库、运行配置等文件的文件包。构建镜像的过程其实就是把上述文件打包的过程。

2025-09-16 21:11:22 735

原创《大数据之路1》笔记3：数据管理

消费场景知晓数据加工过程卡点校验风险点监控质量平衡[[《大数据之路1》笔记1：总述和数据技术篇]][[《大数据之路1》笔记2：数据模型]]

2025-09-15 21:15:57 941

原创《大数据之路1》笔记1：总述和数据技术篇

OneData是数据整合及管理的方法体系和工具，在这一体系下，构建统一、规范、可共享的全域数据体系，避免数据的冗余和重复建设，规避数据烟囱和不执行，充分发挥阿里巴巴在大数据海量、多样性的独特优势。从计算频率角度：数仓分为离线数仓和实时数仓从数据加工链路角度：ODS\DWD\DWS\ADS元数据模型整合及应用：数据源元数据、数据仓库元数据、数据链路元数据、工具类元数据、数据质量类元数据等元数据应用主要面向数据发现、数据管理。

2025-09-15 07:58:48 550

原创《大数据之路1》笔记2：数据模型

构建统一、规范、可共享的全域数据体系，避免数据的冗余和重复建设，规避数据烟囱和不一致性，充分发挥阿里巴巴在大数据海量、多样性方面的独特优势核心：从业务架构设计到模型设计，从数据研发到数据服务，做到数据可管理、可追溯、可规避重复建设定位：建设统一的、规范化的数据接入层（ODS）和数据中间层（DWD和DWS），通过数据服务和数据产品，完成服务于阿里巴巴的大数据体系建设，即数据公共程建设。

2025-09-13 17:37:11 703

原创 kafka：【2】工作原理

kafka中消息是以topic进行分类的，topic是数据的主题，生产者是生产消息，消费者是消费消息，中间都需要topic。topic是逻辑上的概念，而物理概念的是partition，broker（服务器）中可以有一个或多个partition，一个partition对应于一个log文件，log文件用来存储生产者的数据，生产者生产的数据会不断追加到log文件的末端，且每天数据都有自己的offset（偏移量）。

2025-09-11 20:51:53 985

原创 Google AI Studio使用1：创建Flink测试题APP

尝试体验了下，非常丝滑，在功能基本完善之后，还可以上传至自己的github仓库，实现版本管控，如果后续丰富功能，可以继续与它互动，生成的新版本，继续保存上传即可。最近学习Flink，为了快速掌握它，使用了Google AI Studio的build创建了一个APP，用于测试Flink的掌握程度。我的流程是这样的，使用Gemini 2.5 Pro帮我生成提示词。

2025-09-11 20:47:48 736

原创 kafka：【1】概念关系梳理

Kafka核心架构采用生产者-主题-消费者的数据流模型，通过分区机制实现高并发和水平扩展。主题作为逻辑分类被划分为多个物理分区，分布在不同的代理节点上。每个分区通过副本机制（Leader-Follower）确保高可用性，并采用文件段和偏移量管理数据存储。消费者组机制实现负载均衡，确保同一分区仅被组内一个消费者处理。整体架构通过分区、副本和消费者组的协同工作，实现了高效、可靠的消息处理能力。

2025-09-03 22:42:48 902

原创 pytorch初级

本文是《PyTorch实用教程》第二版的学习笔记，主要介绍深度学习的核心流程：数据准备→模型构建→训练→评估与应用。内容分为三部分：1）PyTorch基础，包括Tensor特性（GPU加速和自动求导）、创建方式及运算；2）实战案例，如图像分类和NLP；3）模型部署。重点讲解了Tensor与NumPy数组的区别、数据加载（Dataset和DataLoader的使用）以及自定义数据集的实现方法。Tensor部分强调GPU计算和内存共享机制，数据加载部分详细说明了如何通过__len__和__getitem__构建

2025-09-03 22:20:55 775

原创 sql性能优化

本文摘要：大数据性能优化主要从三个层面展开：数据源头、SQL语句和计算引擎。数据源头优化包括文件格式选择、数据压缩、分区和分桶策略。列式存储（如Parquet/ORC）比行式存储更高效，支持谓词下推和高效压缩技术（字典编码、RLE）。分区通过"分区裁剪"显著提升查询性能，但需避免过度分区导致的小文件问题。分桶可优化JOIN操作，通过预先哈希分桶避免Shuffle过程，实现"桶剪枝"效果。新兴的Paimon存储格式结合了列式存储和LSM树结构，为数据湖提供实时更新能力

2025-08-30 15:07:03 1011

原创大数据中的数据压缩原理

它通过将同类型、高相似性的数据物理上聚集在一起，为后续高效的、针对特定数据类型的编码和压缩创造了必要条件。没有列式存储，后续的优化压缩效果会大打折扣。字典编码、增量编码、游程编码、位打包等技术，直接利用了IoT数据中普遍存在的重复性、时间局部性、低基数、小范围变化等特性，在压缩前就将数据体积大幅缩减。它们是实现高压缩比（如5:1）的核心功臣。在编码大幅减少冗余后，通用的无损压缩算法（Snappy, Zstd等）再进一步消除剩余的位级冗余，锦上添花。列式格式避免了行式格式中每条记录的结构信息冗余。

2025-08-12 21:09:05 932

原创大模型预训练脚本超参数解析

这篇预训练脚本配置介绍了使用XTuner框架对InternLM2 1.8B聊天模型进行微调的过程。脚本包含三个主要部分：1)基础设置，包括模型路径、批量大小、学习率等训练参数；2)模型与分词器配置，采用4位量化和LoRA技术优化模型；3)数据集处理，从JSON文件加载数据并进行预处理。训练使用AdamW优化器，采用学习率预热和梯度累积策略(批量大小256)，支持检查点保存和周期性模型评估。该配置特别针对大语言模型微调优化了内存使用，同时保持模型性能。

2025-07-20 15:26:30 812

原创大模型的Temperature、Top-P、Top-K、Greedy Search、Beem Search

本文介绍了大语言模型中的几种解码策略及其工作原理。Greedy Search（贪心搜索）是默认方法，每一步选择概率最高的词元，速度快但缺乏多样性；Beam Search（束搜索）通过维护多个候选序列提高生成质量，但计算成本较高；Top-K Sampling从概率最高的K个词元中随机选择，增加多样性；Top-P Sampling则动态调整候选集大小，更智能地平衡确定性与多样性。此外，Temperature参数通过调整logits分布控制生成文本的随机性。这些策略各有优劣，适用于不同场景，用户可根据需求选择合适

2025-07-13 08:37:44 1134

原创 swift框架中swift_output输出的是什么

摘要： SWIFT框架微调后生成的swift_output文件仅包含轻量级适配器（如LoRA），并非完整模型。适配器记录增量调整（通常几十MB），需与基础模型（几十GB）结合使用，类似于"百科全书附录"。合并目的包括：1）简化部署流程，提升推理性能；2）便于模型共享和二次微调。合并方式分为加载时动态合并或物理合并，最终生成完整可独立运行的模型。"训练分离，部署合并"是PEFT方法的高效实践，SWIFT提供全流程工具支持。（150字）

2025-07-12 09:47:41 499

原创端侧小模型论文分类微调3.0版本--让AI帮助生成数据集

本文介绍了一个基于InternLM3 1.8B模型的论文分类系统构建方案。系统采用Kaggle上的arXiv公开数据集，通过两个阶段训练：预训练阶段(5000条数据，格式为包含论文ID、标题、作者、类别和摘要的JSON)和微调阶段(5000条对话数据，格式为系统指令+论文分类问答)。方案详细说明了数据预处理流程，包括单标签筛选、文本清洗、特殊字符处理等关键步骤，确保训练数据的质量和模型性能。该方案旨在构建一个高精度的论文分类模型，能够准确判断论文所属的科学类别。

2025-07-12 09:39:54 441

原创 LLM微调随记录

该研究探讨了领域文献批量转换为模型微调数据集的关键问题。核心要点包括：1）数据处理是微调成功的关键，需进行清洗、格式化和增强；2）论文分析显示，不同微调方法（CPT/SFT/DPO）需要特定数据格式，如问答对或偏好数据；3）参数高效微调技术（如LoRA、适配器）可降低计算成本；4）研究强调数据质量（如Nature论文使用的21,000条蜘蛛丝数据）比数量更重要，格式多样性可能影响性能。总体而言，构建有效数据管道需结合领域特性和模型需求，合理选择预处理和微调策略。

2025-07-07 22:26:25 766

原创 Xtuner：大模型微调快速上手

XTuner是由上海人工智能实验室开发的大语言模型微调工具库，具有轻量易用、配置驱动、高效灵活等特点。它支持多种微调算法（如LoRA、QLoRA）和主流大模型，通过简单的命令行操作和配置文件即可完成微调流程。XTuner集成FlashAttention等优化技术，与LMDeploy、OpenCompass形成完整解决方案。用户可通过内置配置快速上手，如使用QLoRA微调InternLM2-1.8B模型，只需准备数据、选择配置、启动训练、合并权重四步。XTuner简化了大模型微调流程，是开发者快速实现模型定制

2025-07-06 08:58:27 839

根据黑马程序员的b站公开课整理的spark

大数据领域中阿里巴巴数据体系架构及关键技术实践，涵盖数据采集、同步、建模与优化

自己总结的机器学习数学基础

爬虫笔记，自己学习爬虫时总结课程笔记

山东大数据考试。。。。。

客户流失情况分析，简单做下分析

数据分析思维笔记，不断提升自己

空空如也