自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(67)
  • 资源 (1)
  • 收藏
  • 关注

原创 数仓建模1-核心框架

数据仓库建模的核心在于搭建业务数据与分析应用之间的桥梁,主要包含三方面工作:业务与数据理解、结构化组织数据、支撑实际应用场景。主流理论包括Inmon的企业级3NF建模、Kimball的维度建模和Data Vault的可扩展模型,互联网公司常用分层架构(ODS/DIM/DWD/DWS/ADS)结合Kimball维度建模。建模流程包括业务调研、指标体系设计、维度建模、ETL实现等环节,最终形成统一的表结构和指标口径。离线数仓采用T+1批处理模式,而实时数仓则基于流式计算框架,两者在技术架构上有所差异但建模思路相

2025-12-29 22:42:59 812

原创 spark性能优化6:内存管理

资源配置根据数据量和计算类型设置合理的(如 8G-16G),避免过大(GC 压力)或过小(资源浪费)。根据集群总核心数设置合适的,确保充分利用集群 CPU。参数调优开启 Kryo。启用堆外内存。动态调整内存比例:计算密集型调高;缓存密集型调高。代码优化减少对象创建:在算子函数中复用对象,避免在循环中new。使用高效算子代替groupByKey。明智地使用缓存:选择合适的,并及时。优先广播小表:避免不必要的 Shuffle。持续监控频繁查看 Spark UI。

2025-12-27 19:16:43 638

原创 spark性能优化5:资源配置与并行度优化

没有“银弹”配置:最优配置取决于你的数据量、计算复杂度、集群资源(CPU、内存、网络)和具体作业特性。务必通过监控和实验来找到最佳平衡点。优先级第一步:确保应用不 OOM没有明显的数据倾斜(通过 Spark UI 诊断)。第二步:在资源充足的前提下,提高并行度,充分利用集群 CPU 核心。第三步优化内存分配等),减少 GC 时间。第四步优化代码(使用 Kryo、避免groupByKey、使用广播变量等)。牢记“移动计算比移动数据更划算”

2025-12-27 19:13:59 678

转载 蒸汽、钢铁与无限智慧

c。

2025-12-25 22:08:31 34

原创 spark性能优化4:数据倾斜

数据倾斜是分布式计算中数据分布不均衡的现象,会导致部分任务处理过载而拖慢整体性能。本文系统分析了数据倾斜的成因、识别方法及解决方案。通过Spark Web UI可定位倾斜的Stage和Task,常见于Shuffle类算子如groupBy、join等。优化策略包括:调整并行度、过滤异常Key、两阶段聚合、优化Join策略等,并介绍了Spark 3.0+的AQE自动倾斜处理功能。文章提供了流程图和对比表格,帮助开发者根据场景选择合适方案,平衡处理效果与实现复杂度。

2025-12-24 23:31:15 959

原创 spark性能优化3:小文件问题

Spark中小文件问题严重影响性能,主要表现为NameNode内存压力、任务调度低效、存储浪费和I/O开销大。产生原因包括数据源本身小文件、过度动态分区、Task设置过多等。解决方案分三方面:1)源头预防:使用DISTRIBUTE BY控制输出文件数,调整并行度参数;2)写入时自动合并:开启spark.sql.mergeSmallFiles.enabled并设置阈值;3)事后补救:通过repartition/coalesce重写数据,或使用CombineFileInputFormat合并读取。此外还可调优m

2025-12-24 22:07:01 1216

原创 spark性能优化2:Window操作和groupBy操作的区别

Spark操作性能差异分析:Window函数与GroupBy对比 摘要: 本文比较了Spark中Window函数和GroupBy操作的性能差异。GroupBy操作总会触发shuffle,而Window函数在数据已按partitionBy列分区时可避免shuffle。两者核心区别在于:Window函数添加计算列不改变行数,GroupBy则聚合减少行数。通过分段计数过滤案例对比,Window版本只需单次过滤且避免shuffle,而GroupBy版本需多次shuffle(聚合+连接)。Window函数更高效,能保

2025-11-07 11:09:59 334

原创 spark性能优化1:通过依赖关系重组优化Spark性能:宽窄依赖集中处理实践

在进行优化之前,我们必须先对Spark的两种核心依赖关系——宽依赖(Wide Dependency)和窄依赖(Narrow Dependency)有清晰的认识。窄依赖 (Narrow Dependency)窄依赖指的是父RDD(或DataFrame)的每个分区最多只被子RDD的一个分区所使用。这种关系非常“专一”,计算可以在各个分区内部独立完成,不需要等待其他分区的数据。常见的窄依赖转换有mapfilterselect等。[父RDD分区A] -> [子RDD分区A']

2025-10-17 10:52:00 738

原创 在使用spark的applyInPandas方法过程中,遇到类型冲突问题如何解决

Spark与Pandas在数据类型系统上存在本质差异,导致使用applyInPandas方法时容易出现类型冲突问题。核心矛盾在于Spark的强类型系统与Pandas的灵活类型系统之间的转换,而Arrow作为中间桥梁会严格校验类型。常见冲突包括时间戳、字符串和空值处理等。解决方案应从数据修正、显式类型声明和配置调整三方面入手,建议优先使用Spark原生算子处理数据。版本一致性检查和分批次处理也是避免问题的有效方法。

2025-10-17 10:09:31 1084

原创 解决comet等待网络连接的问题

关于下载comet后一直处于等待网络连接的问题,该如何解决。命令,并且这些变量只在当前这个 CMD 窗口中生效。在 Windows CMD 中,你需要使用。从网上reddit上找到了一个解决方法。

2025-10-08 11:01:06 1910 6

原创 Docker简介

数据卷是一个虚拟目录,是容器内目录和宿主机目录之间映射的桥梁。卷是虚拟的,但是对应的宿主机的目录是真实的,容器的目录跟数据卷之间挂载,这样桥梁就搭建起来了,实现宿主机和容器目录之间的双向绑定,容器内的目录更改,宿主机的目录也会更改,宿主机上有非常高级的编辑器,所以在宿主机上进行更改就方便多了镜像就是包含了应用程序、程序运行的系统函数库、运行配置等文件的文件包。构建镜像的过程其实就是把上述文件打包的过程。

2025-09-16 21:11:22 717

原创 《大数据之路1》笔记3:数据管理

消费场景知晓数据加工过程卡点校验风险点监控质量平衡[[《大数据之路1》笔记1:总述和数据技术篇]][[《大数据之路1》笔记2:数据模型]]

2025-09-15 21:15:57 917

原创 《大数据之路1》笔记1:总述和数据技术篇

OneData是数据整合及管理的方法体系和工具,在这一体系下,构建统一、规范、可共享的全域数据体系,避免数据的冗余和重复建设,规避数据烟囱和不执行,充分发挥阿里巴巴在大数据海量、多样性的独特优势。从计算频率角度:数仓分为离线数仓和实时数仓从数据加工链路角度:ODS\DWD\DWS\ADS元数据模型整合及应用: 数据源元数据、数据仓库元数据、数据链路元数据、工具类元数据、数据质量类元数据等 元数据应用主要面向数据发现、数据管理。

2025-09-15 07:58:48 533

原创 《大数据之路1》笔记2:数据模型

构建统一、规范、可共享的全域数据体系,避免数据的冗余和重复建设,规避数据烟囱和不一致性,充分发挥阿里巴巴在大数据海量、多样性方面的独特优势核心 :从业务架构设计到模型设计,从数据研发到数据服务,做到数据可管理 、可追溯、可规避重复建设定位: 建设统一的、规范化的数据接入层(ODS)和数据中间层(DWD和DWS),通过数据服务和数据产品,完成服务于阿里巴巴的大数据体系建设,即数据公共程建设。

2025-09-13 17:37:11 679

原创 kafka:【2】工作原理

kafka中消息是以topic进行分类的,topic是数据的主题,生产者是生产消息,消费者是消费消息,中间都需要topic。topic是逻辑上的概念,而物理概念的是partition,broker(服务器)中可以有一个或多个partition,一个partition对应于一个log文件,log文件用来存储生产者的数据,生产者生产的数据会不断追加到log文件的末端,且每天数据都有自己的offset(偏移量)。

2025-09-11 20:51:53 970

原创 Google AI Studio使用1:创建Flink测试题APP

尝试体验了下,非常丝滑,在功能基本完善之后,还可以上传至自己的github仓库,实现版本管控,如果后续丰富功能,可以继续与它互动,生成的新版本,继续保存上传即可。最近学习Flink,为了快速掌握它,使用了Google AI Studio的build创建了一个APP,用于测试Flink的掌握程度。我的流程是这样的,使用Gemini 2.5 Pro帮我生成提示词。

2025-09-11 20:47:48 701

原创 kafka:【1】概念关系梳理

Kafka核心架构采用生产者-主题-消费者的数据流模型,通过分区机制实现高并发和水平扩展。主题作为逻辑分类被划分为多个物理分区,分布在不同的代理节点上。每个分区通过副本机制(Leader-Follower)确保高可用性,并采用文件段和偏移量管理数据存储。消费者组机制实现负载均衡,确保同一分区仅被组内一个消费者处理。整体架构通过分区、副本和消费者组的协同工作,实现了高效、可靠的消息处理能力。

2025-09-03 22:42:48 866

原创 pytorch初级

本文是《PyTorch实用教程》第二版的学习笔记,主要介绍深度学习的核心流程:数据准备→模型构建→训练→评估与应用。内容分为三部分:1)PyTorch基础,包括Tensor特性(GPU加速和自动求导)、创建方式及运算;2)实战案例,如图像分类和NLP;3)模型部署。重点讲解了Tensor与NumPy数组的区别、数据加载(Dataset和DataLoader的使用)以及自定义数据集的实现方法。Tensor部分强调GPU计算和内存共享机制,数据加载部分详细说明了如何通过__len__和__getitem__构建

2025-09-03 22:20:55 759

原创 sql性能优化

本文摘要: 大数据性能优化主要从三个层面展开:数据源头、SQL语句和计算引擎。数据源头优化包括文件格式选择、数据压缩、分区和分桶策略。列式存储(如Parquet/ORC)比行式存储更高效,支持谓词下推和高效压缩技术(字典编码、RLE)。分区通过"分区裁剪"显著提升查询性能,但需避免过度分区导致的小文件问题。分桶可优化JOIN操作,通过预先哈希分桶避免Shuffle过程,实现"桶剪枝"效果。新兴的Paimon存储格式结合了列式存储和LSM树结构,为数据湖提供实时更新能力

2025-08-30 15:07:03 972

原创 大数据中的数据压缩原理

它通过将同类型、高相似性的数据物理上聚集在一起,为后续高效的、针对特定数据类型的编码和压缩创造了必要条件。没有列式存储,后续的优化压缩效果会大打折扣。字典编码、增量编码、游程编码、位打包等技术,直接利用了IoT数据中普遍存在的重复性、时间局部性、低基数、小范围变化等特性,在压缩前就将数据体积大幅缩减。它们是实现高压缩比(如5:1)的核心功臣。在编码大幅减少冗余后,通用的无损压缩算法(Snappy, Zstd等)再进一步消除剩余的位级冗余,锦上添花。列式格式避免了行式格式中每条记录的结构信息冗余。

2025-08-12 21:09:05 892

原创 大模型预训练脚本超参数解析

这篇预训练脚本配置介绍了使用XTuner框架对InternLM2 1.8B聊天模型进行微调的过程。脚本包含三个主要部分:1)基础设置,包括模型路径、批量大小、学习率等训练参数;2)模型与分词器配置,采用4位量化和LoRA技术优化模型;3)数据集处理,从JSON文件加载数据并进行预处理。训练使用AdamW优化器,采用学习率预热和梯度累积策略(批量大小256),支持检查点保存和周期性模型评估。该配置特别针对大语言模型微调优化了内存使用,同时保持模型性能。

2025-07-20 15:26:30 789

原创 大模型的Temperature、Top-P、Top-K、Greedy Search、Beem Search

本文介绍了大语言模型中的几种解码策略及其工作原理。Greedy Search(贪心搜索)是默认方法,每一步选择概率最高的词元,速度快但缺乏多样性;Beam Search(束搜索)通过维护多个候选序列提高生成质量,但计算成本较高;Top-K Sampling从概率最高的K个词元中随机选择,增加多样性;Top-P Sampling则动态调整候选集大小,更智能地平衡确定性与多样性。此外,Temperature参数通过调整logits分布控制生成文本的随机性。这些策略各有优劣,适用于不同场景,用户可根据需求选择合适

2025-07-13 08:37:44 1102

原创 swift框架中swift_output输出的是什么

摘要: SWIFT框架微调后生成的swift_output文件仅包含轻量级适配器(如LoRA),并非完整模型。适配器记录增量调整(通常几十MB),需与基础模型(几十GB)结合使用,类似于"百科全书附录"。合并目的包括:1)简化部署流程,提升推理性能;2)便于模型共享和二次微调。合并方式分为加载时动态合并或物理合并,最终生成完整可独立运行的模型。"训练分离,部署合并"是PEFT方法的高效实践,SWIFT提供全流程工具支持。(150字)

2025-07-12 09:47:41 473

原创 端侧小模型论文分类微调3.0版本--让AI帮助生成数据集

本文介绍了一个基于InternLM3 1.8B模型的论文分类系统构建方案。系统采用Kaggle上的arXiv公开数据集,通过两个阶段训练:预训练阶段(5000条数据,格式为包含论文ID、标题、作者、类别和摘要的JSON)和微调阶段(5000条对话数据,格式为系统指令+论文分类问答)。方案详细说明了数据预处理流程,包括单标签筛选、文本清洗、特殊字符处理等关键步骤,确保训练数据的质量和模型性能。该方案旨在构建一个高精度的论文分类模型,能够准确判断论文所属的科学类别。

2025-07-12 09:39:54 410

原创 LLM微调随记录

该研究探讨了领域文献批量转换为模型微调数据集的关键问题。核心要点包括:1)数据处理是微调成功的关键,需进行清洗、格式化和增强;2)论文分析显示,不同微调方法(CPT/SFT/DPO)需要特定数据格式,如问答对或偏好数据;3)参数高效微调技术(如LoRA、适配器)可降低计算成本;4)研究强调数据质量(如Nature论文使用的21,000条蜘蛛丝数据)比数量更重要,格式多样性可能影响性能。总体而言,构建有效数据管道需结合领域特性和模型需求,合理选择预处理和微调策略。

2025-07-07 22:26:25 734

原创 Xtuner:大模型微调快速上手

XTuner是由上海人工智能实验室开发的大语言模型微调工具库,具有轻量易用、配置驱动、高效灵活等特点。它支持多种微调算法(如LoRA、QLoRA)和主流大模型,通过简单的命令行操作和配置文件即可完成微调流程。XTuner集成FlashAttention等优化技术,与LMDeploy、OpenCompass形成完整解决方案。用户可通过内置配置快速上手,如使用QLoRA微调InternLM2-1.8B模型,只需准备数据、选择配置、启动训练、合并权重四步。XTuner简化了大模型微调流程,是开发者快速实现模型定制

2025-07-06 08:58:27 807

原创 hive中2种常用的join方式

摘要:本文对比了Hive中三种Join方式的应用场景和原理。Map Join适用于小表(默认<25M)关联大表,通过将小表加载到内存HashTable实现高效查询,优化后从72分钟降至7分钟。Reduce Join包含map、shuffle、reduce三阶段,适合大表间关联但性能消耗较大。SMB Join则针对预先排序分桶的大表,能避免shuffle直接完成关联。文中用SQL示例和原理图说明了不同Join的工作机制,并提供了参考链接供深入阅读。

2025-07-04 15:12:58 1053

原创 L1G3-LMDeploy 课程作业

摘要 本教程展示了使用LMDeploy工具部署和量化InternVL与InternLM大语言模型的过程。主要内容包括:1) 通过Python代码实现InternLM的离线部署和文本生成,演示了不同解码策略(贪心、随机采样、集束搜索等);2) 展示了Top-k和Top-p采样的核心实现代码;3) 使用LMDeploy CLI工具和OpenAI API风格部署模型服务;4) 介绍了APIClient接口的调用方法,包括启动服务和进行推理的完整流程。教程提供了从模型部署到实际应用的全链条技术实现方案。

2025-06-29 15:40:56 397

原创 L1G2-OpenCompass 评测书生大模型作业

本文介绍了使用OpenCompass评测工具对InternLM和InternVL模型进行性能评估的实践过程。针对InternLM模型,通过配置环境、下载数据集并执行C-Eval选择题评测任务,展示了命令行和定制化脚本两种评测方式。对于InternVL模型,则利用VLMEvalKit工具包进行多模态评测,覆盖图像描述、视觉问答等任务。评测结果显示两个模型均能较好地完成指定任务。该实践为开发者提供了大模型评测的完整流程参考,包括环境配置、数据集准备、评测执行和结果分析等关键步骤。

2025-06-29 15:29:43 381

原创 L1G1-玩转书生大模型API 之 Browser-Use实践作业

原作业地址: https://ramlfqufb54.feishu.cn/wiki/CwO2w3afNiAfWbkW9ivcAnDenhg。自行探索,并使用 Browser-use Web-UI 自带的录制功能,将书生大模型操作浏览器过程录制下来,放到作业中。构建一个包含 3 轮对话的上下文,调用 API 获取最终回复 and 发送一张图片并获取描述。根据文档的教学内容,一步一步操作,基本可以实现想要的效果,以下仅为作业结果。

2025-06-29 15:22:22 249

原创 书生五期--端侧小模型论文分类微调打榜

本文介绍了基于InternLM模型的arxiv论文分类任务实现方案。首先使用lora方法对InternLM3-8B模型进行预训练,然后基于预训练模型在带标签数据上进行监督微调(SFT)。方案详细说明了环境配置、数据集下载、预训练和SFT两个阶段的执行步骤,包括相关参数设置和模型合并等关键操作。整个流程采用ms-swift框架实现,通过两阶段训练策略提升模型在论文分类任务中的表现。文章还提供了训练日志记录和模型权重合并等实用技巧。

2025-05-25 10:05:00 1268

原创 关于Transformer和MoE框架的一点认识

MoE(专家混合模型)架构可以理解为一种多段函数式,与传统的Transformer架构不同。Transformer通过统一的深度非线性函数处理所有输入,而MoE则通过门控机制动态选择激活不同的专家网络,每个专家可以看作一个独立的函数。MoE的核心在于其动态路由机制,门控网络根据输入特征选择激活的专家,从而实现稀疏激活和计算高效性。这种设计不仅增加了模型的总参数量,还提高了任务适应性,但也面临训练不稳定性和通信开销等挑战。总体而言,MoE通过条件计算范式,超越了传统的静态分块函数,实现了更灵活和高效的模型架构

2025-05-18 08:44:17 666

原创 沐曦玩转 LMDeploy、XTuner 和 InternLM3

学习链接: https://aicarrier.feishu.cn/wiki/O84LwkiBriUU0NkDwurcSufhnVb。

2025-04-28 17:00:14 569

原创 NL2SQL调研

将用户的自然语言查询(NL)转换为 SQL 查询可以显著降低访问关系数据库的障碍,并支持各种商业应用。随着大语言模型(LLMs)的出现,NL2SQL 的性能得到了极大提高。在这种情况下,评估当前文本转 SQL 的转换、确定从业者针对特定场景应采用的 NL2SQL 解决方案以及确定研究人员接下来应探索的研究主题至关重要。

2025-04-27 10:20:04 1065

原创 spark总结

spark定义spark是一种分布式计算分析引擎,借鉴MapReduce思想发展而来,保留了分布式计算的优点并改进了MapReduce的缺点,让中间数据存储在内存中提高了运行速度,提供了丰富的数据处理的API,提高了开发速度spark的作用:可以处理结构化数据、半结构化数据、非结构化数据,支持python,sql,scala,R,java语言,底层语言使用scala写的与Hadoop框架的区别spark的特点:速度快、易使用、通用性强、支持多种运行方式spark组成Sparkcore。

2025-04-26 22:09:36 777

原创 人工智能驱动的数据仓库优化:现状、挑战与未来趋势

现代数据仓库的复杂性和规模正以前所未有的速度增长,这主要是由于数据量、种类和产生速度的急剧增加所致。传统的数据仓库技术在应对这些现代数据需求方面显得力不从心,这催生了对更先进解决方案的需求。数据工程师在手动优化存储和计算过程(例如在MapReduce中)时面临诸多挑战3。这一过程不仅需要专业的知识,而且非常耗时,可能会阻碍创新。人工智能(AI)和机器学习(ML)的出现为自动化和增强这些优化过程提供了巨大的潜力,使工程师能够更专注于数据创新和战略性工作。

2025-04-05 09:20:10 1153

原创 大模型上下文协议(MCP)技术

Model Context Protocol(MCP)是Anthropic提出的一项开放标准协议,旨在重构AI系统与外部数据、工具之间的连接方式,通过统一接口解决传统大语言模型(LLM)在实时数据访问、领域特化和系统集成中所遇到的知识局限、集成碎片化等问题1。从技术原理、应用场景、安全风险与隐私保护以及未来发展趋势四个方面进行系统论述,并结合丰富的实践案例与可视化图表,详细阐述MCP的架构设计、工作流程、安全机制和未来演进方向。

2025-04-03 10:20:09 965

原创 机器学习6--GBDT 梯度提升决策树

GBDT与传统的Boosting区别较大,它的每一次计算都是为了减少上一次的残差,而为了消除残差,我们可以在残差减小的梯度方向上建立模型,所以说,在GradientBoost中,每个新的模型的建立是为了使得之前的模型的残差往梯度下降 的方向,与传统的Boosting中关注正确错误的样本加权有这很大的区别在GrandientBoosting算法中,关键就是利用损失函数的负梯度方向在当前模型的值作为残差的近似值,进而拟合一棵CART回归树。

2025-03-11 22:45:39 1124

原创 万字总结数据分析思维

令人不悦的两种情况对于核心数据,如日活,只知道数据在变化,但不知道为何变化,特别是处于一个较大跌幅时,产品为了解释这种现象,就会向数据分析师要各种纬度的数据每隔一段时间,产品都会拉上数据、研发一起对埋点,总是觉得当前的字段不够用,底层日志越来越大,数仓修改的越来越多,取数越来越慢,错误越来越多根本原因都是在于缺少指标体系的建设、宣贯以及实施业务方不重视指标体系是感觉指标体系是基建活,离完成KPI太远,只有出现问题时才会临时重视数据方。

2025-03-09 22:46:12 1421

原创 机器学习5-Adaboost

Adaboost算法的核心思想是在每一轮的迭代中,通过增加上一轮弱学习器错误分类的样本权重,并减少那些被正确分类的样本权重,来“迫使”新的学习器更加关注那些“难以分类”的样本。随后,算法将所有弱学习器的预测结果进行加权平均或加权投票,以得到最终的强学习器。

2025-03-05 20:33:01 1529

根据黑马程序员的b站公开课整理的spark

主要介绍spark框架,原理及应用 适用于大数据开发人员

2025-02-11

大数据领域中阿里巴巴数据体系架构及关键技术实践,涵盖数据采集、同步、建模与优化

阅读《大数据之路》整理的笔记 适用于大数据行业人员 设计数仓建模,数据开发,数据管理

2025-02-11

自己总结的机器学习数学基础

机器学习数学基础 适用于机器学习初学者

2025-02-11

爬虫笔记,自己学习爬虫时总结课程笔记

爬虫入门、了解爬虫概况

2022-07-26

山东大数据考试。。。。。

山东大数据考试。。。。。

2022-08-29

客户流失情况分析,简单做下分析

从网上找的一个数据分析项目,涉及pandas,sklearn,matplotlib的使用

2022-08-21

数据分析思维笔记,不断提升自己

适合培养数据分析思维,数据分析学习路径 哔哩哔哩视频:【数据分析【数据分析思维与实战23讲】 https://www.bilibili.com/video/BV1FW4y1S7PX?p=25&share_source=copy_web&vd_source=8f9078186b93d9eee26026fd26e8a6ed

2022-08-20

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除