- 博客(1298)
- 资源 (29)
- 收藏
- 关注
原创 Dagster 构建可靠数据体系:从挑战到解决方案的完整路径
在当今数据驱动的世界中,数据可靠性已成为企业和组织成功的关键因素。数据可靠性不仅关乎数据的准确性,还涉及数据的一致性、完整性和可重复性。本文将深入探讨数据可靠性的定义、挑战、测量方法及最佳实践。
2025-06-12 20:38:21
388
原创 Dagster 实现数据质量自动化:6大维度检查与最佳实践
在当今数据驱动的世界中,数据质量的重要性不言而喻。数据质量测试是确保数据准确、完整、一致和可靠的关键步骤。本文将深入探讨数据质量测试的六大维度,并提供相关的检查方法和最佳实践。
2025-06-12 20:26:21
902
原创 Dagster软件定义资产(SDA)完全指南:从概念到落地实践
在数据工程领域,我们正经历一场静默但深刻的变革。传统的数据处理方式——基于任务的命令式编程——正在被一种更声明式、更以资产为中心的方法所取代。本文将深入探讨"软件定义资产"(Software-Defined Assets)这一新兴概念,分析它如何重塑数据管理的方式,并展示Dagster如何成为这一变革的先锋力量。
2025-06-11 21:27:06
759
原创 现代数据工程实践:基于Dagster的ETL架构设计与实现
在当今数据驱动的世界中,有效的数据处理流程至关重要。本文将带您通过一个完整的教程,学习如何使用Dagster构建一个功能强大的ETL(提取、转换、加载)管道。无论您是数据工程师、分析师还是对数据流水线感兴趣的技术爱好者,本教程都将为您提供实用的技能和深入的理解。
2025-06-11 21:04:21
1002
原创 数据工程全景指南:从基础概念到最佳实践
在数字化转型的浪潮中,“数据工程”已成为企业构建数据驱动决策能力的核心环节。它不仅是数据分析与人工智能的基石,更是连接海量数据与商业价值的桥梁。本文将深入解析数据工程的定义、核心职责、技术架构及实践策略,帮助读者全面掌握这一关键领域。
2025-06-10 21:25:21
613
原创 Druid段大小与缓存策略优化指南:提升查询性能的实战技巧
Druid 是一个高性能的分布式实时分析数据库,广泛应用于日志分析、时序数据处理和交互式查询场景。其查询性能很大程度上依赖于**段(Segment)大小**和**缓存策略**的优化。本文结合Druid官方文档,深入探讨如何调整段大小和缓存策略,以提升查询性能。
2025-06-10 01:30:00
988
原创 数据工程师必读:Dagster概念体系完全指南(附概念关系图解)
本文深入解析了Dagster数据编排平台的核心概念体系,为数据工程师提供了系统化的理解框架。文章详细介绍了资产(Asset)、作业(Job)、资源(Resource)等关键抽象概念及其相互关系,探讨了Dagster如何通过声明式编程和模块化设计简化数据管道管理。通过概念关系图的可视化呈现,本文帮助读者建立对Dagster架构的完整认知,为构建可靠、可维护的数据基础设施提供理论指导。
2025-06-09 20:44:10
1162
原创 PyTorch学习路径与基础实践指南
本文综合了Sling Academy的两篇PyTorch入门教程精华,为初学者提供了一条清晰的学习路径和实用的基础实践指南。文章首先概述了学习PyTorch的完整路线图,从基础知识准备到环境设置,再到神经网络构建与模型训练。随后深入讲解了PyTorch的核心概念,包括张量操作和简单神经网络的实现。通过丰富的代码示例和详细解释,本文旨在帮助读者建立扎实的PyTorch基础,为更复杂的机器学习项目打下坚实基础。
2025-06-09 20:18:37
562
原创 如何彻底解决生产缺料问题?BOM管理的5个关键实践指南
在现代制造业中,物料清单(Bill of Materials, BOM)被誉为"产品DNA",它承载着产品构成的全部信息。据统计,制造业中约30%的生产延误和20%的额外成本直接源于BOM管理问题。本文将从BOM的基础概念出发,深入分析导致生产缺料的核心原因,并提供经过验证的5个关键实践方案,帮助制造企业构建更健壮的BOM管理体系。
2025-06-08 00:00:00
1593
原创 齐套率分析:概念、计算与实际应用场景详解
在制造业、供应链管理和项目管理中,**齐套率(Kitting Rate)**是一个关键指标,它直接影响生产效率、交付周期和客户满意度。本文将深入解析齐套率的概念、计算方法,并结合实际场景探讨其应用价值。
2025-06-07 10:30:47
776
原创 SQLMesh实战:用虚拟数据环境和自动化测试重新定义数据工程
在数据工程领域,**软件工程实践**(如版本控制、测试、CI/CD)的引入已成为趋势。尽管像 **dbt** 这样的工具已经推动了数据建模的标准化,但在**测试自动化、工作流管理**等方面仍存在不足。**SQLMesh** 应运而生,旨在填补这些空白,提供更高效、可靠的数据工程解决方案。本文将深入探讨 SQLMesh 的核心功能、架构设计及其对数据工程实践的影响,并通过一个实战示例展示其优势。
2025-06-07 09:29:16
931
原创 Apache Druid数据汇总(Rollup)实战指南
Apache Druid 是一款高性能的实时分析数据库,其核心特性之一是**数据汇总(Rollup)**,它能在数据摄入阶段进行预聚合,显著减少存储空间并提升查询性能。本文将深入讲解 Druid 的 Rollup 机制、示例及实用技巧。通过实际案例,您将学会如何利用 Rollup 优化 Druid 数据存储和查询性能。
2025-06-06 01:00:00
826
原创 Apache Druid 架构深度解析:构建高性能分布式数据存储系统
Apache Druid 是一个为实时分析和大规模数据集设计的分布式数据存储系统。本文将深入解析 Druid 的架构设计,探讨其各个组件的功能与交互方式,帮助您理解如何利用 Druid 构建高性能的数据分析平台。
2025-06-05 20:36:06
1981
1
原创 使用 DuckLake 和 DuckDB 构建 S3 数据湖实战指南
本文介绍了由 **DuckDB** 和 **DuckLake** 组成的轻量级数据湖方案,旨在解决传统数据湖(如Hadoop+Hive)元数据管理复杂、查询性能低及厂商锁定等问题。该方案为中小规模数据湖场景提供了简单、高性能且无厂商锁定的替代选择。
2025-06-05 17:16:38
1116
原创 InfluxDB数据爆炸式增长,如何解决保留策略与降采难题?
在当今大数据与高速度分析的时代,时间序列数据库如InfluxDB已成为企业监控实时指标、分析历史数据和生成决策洞察的核心基础设施。然而,随着数据量的爆炸式增长,如何有效管理这些数据成为了一个关键挑战。在InfluxDB OSS v2版本中,数据保留和降采样策略的实现方式发生了重大变化。旧版的保留策略(Retention Policy)和连续查询(Continuous Query)已被新的**数据生命周期管理**和**Task**功能所取代。本文将全面介绍如何在InfluxDB OSS v2中使用Task实现
2025-06-04 02:00:00
427
原创 InfluxDB OSS v2 安全架构深度解析:认证与授权的实战指南
在当今混合云、远程办公和微服务架构盛行的时代,数据安全已成为企业数字化转型的核心挑战。作为企业时间序列数据管理的基石,InfluxDB OSS v2 不仅提供了卓越的性能和灵活性,更构建了一套完善的安全防护体系。本文将深入剖析 InfluxDB OSS v2 的认证(Authentication)与授权(Authorization)机制,通过实际案例和代码示例,帮助您构建坚不可摧的数据安全防线。
2025-06-04 01:45:00
900
原创 InfluxDB性能瓶颈破解:查询缓存设计模式与内存存储调优秘籍
在时间序列数据库的世界里,InfluxDB以其高效处理高频率数据的能力而闻名。然而,即使拥有强大的TSM索引机制,系统性能仍可能遇到瓶颈——尤其是在面对海量重复查询或实时分析需求时。本文将深入探讨两个被低估但极其重要的性能优化利器:**查询缓存(Query Caching)**和**内存存储(In-Memory Storage)**,并通过实战代码和解决方案展示如何最大化它们的价值。
2025-06-03 00:30:00
943
1
原创 基于百万级监控数据的InfluxDB索引调优经验总结
在当今数据驱动的世界中,数据库查询性能直接影响业务决策的效率。对于时间序列数据库 **InfluxDB** 而言,高效的数据检索能力尤为重要,尤其是在处理高频率数据点或海量历史数据时。索引(Indexing)作为提升查询速度的关键技术,能够显著优化 InfluxDB 的性能表现。本文将深入探讨 InfluxDB 的索引机制、类型、优化策略,并结合示例代码展示如何实践高效的索引管理。
2025-06-03 00:00:00
731
原创 会计科目主数据:企业数字化转型的“数据总线“与财务核算基石
在数字化浪潮席卷全球的今天,企业数据管理面临前所未有的挑战与机遇。作为财务管理的核心要素,会计科目不仅是ERP系统的基础架构,更是连接企业各业务系统的"数据总线"。本文将深入解析会计科目作为主数据的本质特征、跨系统应用模式、管理挑战及未来发展趋势,带您全面认识这一关键数据资产在企业管理中的战略价值。
2025-06-02 00:15:00
801
原创 主数据编码体系全景解析:从基础到高级的编码策略全指南
在数字化转型的浪潮中,主数据管理(MDM)已成为企业数字化转型的基石。而主数据编码作为MDM的核心环节,其设计质量直接关系到数据管理的效率、系统的可扩展性以及业务决策的准确性。本文将系统性地探讨主数据编码的七大核心策略,从基础编码到高级编码,从简单规则到复杂体系,带您深入理解每种编码方式的本质、适用场景及设计要点。
2025-06-02 00:00:00
727
原创 InfluxDB 高级分析实战:预测、技术指标与异常检测全指南
InfluxDB 不仅是强大的时序数据存储引擎,更是企业构建智能分析系统的核心平台。本文全面解析如何利用 InfluxDB 内置函数与 Python 生态实现,同时分享性能优化与模型调优的最佳实践,助你构建可靠、高效的智能分析系统。
2025-06-01 07:08:18
652
原创 InfluxDB 高级查询技巧:子查询与动态字段选择实战指南
InfluxDB 的强大不仅在于数据存储,更在于其支持 **子查询(Subqueries)** 和 **动态字段选择(Dynamic Field Key Selection)** 等高级查询能力。本文通过真实代码示例,深入解析如何利用这些功能实现复杂数据分析,同时提供性能优化建议,助你高效驾驭 InfluxDB 的高级查询能力。
2025-06-01 01:00:00
1491
原创 InfluxDB 高级函数详解:DERIVATIVE、INTEGRAL、SPREAD、HISTOGRAM 与 DIFFERENCE
在时序数据分析中,除了基础的聚合函数(如 `MEAN`、`SUM`),InfluxDB 还提供了一系列专门针对时间序列特性的高级函数。这些函数能帮助我们挖掘数据的变化趋势、波动特征和分布规律。下面我们将逐一解析五个关键函数:`DERIVATIVE()`、`INTEGRAL()`、`SPREAD()`、`HISTOGRAM()` 和 `DIFFERENCE()`,并通过实际场景说明其应用价值。
2025-05-31 11:59:12
706
原创 InfluxQL 数据分析实战:聚合、过滤与关联查询全解析
InfluxQL 作为时序数据库的专用查询语言,在处理时间序列数据时展现出独特优势。本文深入探讨 **聚合计算、数据过滤和跨测量关联** 三大核心操作,通过真实代码示例展示如何从海量时序数据中提取关键洞察。文中涵盖从基础平均值计算到复杂多维度分析的完整流程,并提供性能优化建议,助你高效驾驭 InfluxDB 的数据分析能力。
2025-05-31 11:26:39
524
原创 优化 InfluxDB 写入性能:高效批处理策略实战指南
在处理高吞吐量时序数据时,合理运用批处理(Batching)策略是提升 InfluxDB 写入性能的关键。本文介绍 **时间驱动、大小驱动和混合批处理策略**,并通过 Python 代码示例展示如何优化数据写入,平衡 **延迟与吞吐量**。同时,提供 **最佳实践**,如监控调优、客户端配置优化、错误处理等,帮助读者找到适合自身场景的批处理 "甜点",最大化 InfluxDB 的写入效率。
2025-05-31 10:29:43
687
原创 探索Python中的Dask:高效处理大规模数据的利器
在当今数据驱动的时代,处理大规模数据集已成为许多领域的重要挑战。Python作为数据科学和机器学习领域的主流编程语言,虽然拥有NumPy和Pandas等强大的库,但在面对超出内存限制的大数据集时,这些工具往往显得力不从心。Dask作为一款开源的并行计算库,为Python带来了新的解决方案,它不仅能够扩展Python的计算能力,还能提供灵活且用户友好的接口来管理大规模数据和复杂计算。
2025-05-29 08:56:03
1080
原创 深入理解SQLMesh中的Lookback、Forward-Only和Auto-Restatement特性
在数据仓库和ETL(Extract, Transform, Load)流程中,处理数据变更、延迟到达的数据以及模式变更是一项挑战。SQLMesh作为一款强大的数据建模工具,提供了多种特性来帮助数据工程师优雅地处理这些问题。本文将深入探讨SQLMesh中的三个关键特性:Lookback、Forward-Only和Auto-Restatement,以及它们如何帮助构建更健壮的数据管道。
2025-05-29 00:00:00
1037
原创 UTC与本地时区的区别:为什么SQLMesh要求时间列使用UTC?
本文系统讲解了SQLMesh中增量模型的核心属性(如time_column、batch_size、lookback等),结合实际场景分析其配置方法与最佳实践。重点阐述为何时间列(UTC)是增量模型的基础,如何通过合理设置批次大小、并发度及回溯窗口提升性能,并针对常见问题(如时区冲突、自动重述风险)提供解决方案。文章还给出高频更新表与低频更新表的配置示例,帮助工程师优化数据管道效率,确保系统稳定性和数据一致性。
2025-05-28 01:45:00
1175
原创 SQLMesh增量模型属性全解析:从基础配置到性能优化实践
本文深入探讨SQLMesh中增量模型的关键属性,包括time_column、batch_size、batch_concurrency等。详细解释各属性的作用、配置方法及适用场景,并结合实际案例给出配置建议和最佳实践,同时针对常见问题提供解决方案,帮助读者充分利用SQLMesh的增量模型功能,优化数据处理流程。
2025-05-28 01:30:00
1138
原创 Python优雅执行SSH命令:10种方法+虚拟环境深度实践
SSH作为网络安全的基石,广泛应用于远程管理、文件传输和自动化任务。Python凭借其丰富的生态(如`paramiko`、`fabric`)和简洁语法,成为编写SSH脚本的首选语言。本文将系统梳理通过Python执行SSH远程命令的十种主流方法,并重点讲解如何在远程服务器上激活Python虚拟环境后执行命令,帮助开发者根据需求灵活选择技术方案。
2025-05-27 20:50:44
857
原创 Drools从入门到实战,提升系统灵活配置能力
**Drools** 是一个强大的 **业务规则管理系统(BRMS)**,它允许开发者以 **声明式方式** 定义业务逻辑,使规则变更更加灵活,无需修改代码即可调整业务策略。本文将带你深入了解 Drools 的核心概念、基本配置、规则编写方式(DRL 和决策表),并展示如何在 Java 项目中集成 Drools,实现动态业务规则管理。
2025-05-27 14:33:31
974
原创 SQLMesh 用户定义变量详解:从全局到局部的全方位配置指南
SQLMesh 提供了灵活的多层级变量系统,支持从全局配置到模型局部作用域的变量定义。本文将详细介绍 SQLMesh 的四类用户定义变量(global、gateway、blueprint 和 local)以及宏函数的使用方法。
2025-05-26 21:36:13
1402
原创 基于规则匹配实现企业政策精准匹配实战案例
在数字化政务和企业服务领域,**政策匹配**是一项重要应用。企业具备的条件(如专利数量、研发投入、营收规模等)需要与政府出台的政策(如高新技术企业认定、研发补贴、税收优惠等)进行智能匹配,帮助企业快速找到符合自身条件的政策奖励。
2025-05-24 16:25:05
836
原创 从数据到决策:ABC分类法在供应链伙伴选择中的实战应用
在全球化竞争的制造业中,供应链效率直接影响企业的交付能力、成本控制和客户满意度。如何从200多家供应商中快速识别关键合作伙伴?如何将历史采购数据、质量指标、交付绩效转化为可执行的决策依据?**ABC分类法**(Activity-Based Classification)——这一源自经济学帕累托法则的经典方法,能帮助制造业企业科学地划分合作伙伴等级,优化资源分配。而作为**数据分析师或程序员**,你可能更关心:**如何用Python自动化计算分类?如何动态调整模型参数?如何结合机器学习提升预测能力?**
2025-05-24 15:31:16
699
原创 SQLMesh Typed Macros:让SQL宏更强大、更安全、更易维护
在SQL开发中,宏(Macros)是一种强大的工具,可以封装重复逻辑,提高代码复用性。然而,传统的SQL宏往往缺乏类型安全,容易导致运行时错误,且难以维护。**SQLMesh** 引入了 **Typed Macros(类型化宏)**,结合Python的类型提示(Type Hints),让SQL宏更强大、更安全、更易维护。本文将深入探讨Typed Macros的核心优势、使用方法及最佳实践。
2025-05-23 10:23:14
1115
原创 手把手教你将Dagster部署为本地服务:从核心组件到实战场景
Dagster作为新一代数据编排平台,通过声明式工作流和可视化界面显著提升了数据工程效率。本文不仅详解单机部署流程,还将深入解析**Webserver**和**Daemon**的核心作用,并针对不同场景提供针对性部署建议。
2025-05-22 18:19:10
851
原创 SQLMesh 宏操作符详解:提升 SQL 查询的灵活性与效率
SQLMesh 提供了一系列强大的宏操作符(如 `@WITH`、`@JOIN`、`@WHERE` 等),用于动态构建 SQL 查询。这些操作符不仅简化了复杂查询的编写,还提高了代码的可读性和可维护性。本文将深入探讨这些操作符的使用场景、语法及实际案例,帮助开发者更高效地利用 SQLMesh 进行数据处理。
2025-05-22 14:06:14
1097
原创 SQLMesh 宏操作符详解:@IF 的条件逻辑与高级应用
SQLMesh 的 `@IF` 宏提供了一种在 SQL 查询中嵌入条件逻辑的方法,允许根据运行时条件动态调整查询结构。本文深入探讨 `@IF` 的语法、使用场景及实际案例,帮助开发者构建更灵活、可维护的 SQL 工作流。
2025-05-21 20:31:56
730
原创 MinIO纠删码技术解析:数据冗余与高可用的存储密码
在分布式存储系统中,硬盘故障如同"灰犀牛事件"——你明知它会发生,却无法预测具体时间。传统三副本方案虽可靠,但存储成本高达300%。MinIO的纠删码(Erasure Coding)技术通过数学算法,在保障数据安全的同时将存储开销压缩至50%以下。本文将深入解析其核心机制与应用场景。
2025-05-21 16:44:38
938
原创 SQLMesh 内置宏详解:@PIVOT等常用宏的核心用法与示例
本文系统解析 SQLMesh 的四个核心内置宏,涵盖行列转换的 `@PIVOT`、精准去重的 `@DEDUPLICATE`、灵活生成日期范围的 `@DATE_SPINE`,以及动态表路径解析的 `@RESOLVE_TEMPLATE`。通过真实案例演示参数配置与 SQL 渲染逻辑,并对比宏调用与传统 SQL 的差异,助您高效构建标准化数据处理流程。
2025-05-20 21:01:38
809
《示例学习kettle之Excel Writer步骤》博客文章示例
2014-09-16
《在Tomcat上安装部署SAIKU》资源下载
2015-02-10
《kettle子转换即映射》博客示例代码
2014-10-05
《kettle中使用javascript步骤和fireToDB函数实现自定义数据库查询 》代码
2014-10-29
《kettle中调用java类》示例代码
2014-10-12
《详解kettle之User Defined Java Class步骤》示例代码
2014-09-07
饭店运营测试数据,《DuckDB系列教程:如何分析Parquet文件》引用 地址:https://blog.csdn.net/neweastsun/article/details/147002265
2025-04-04
分析示例数据,《DuckDB统计实战:两步验证小费行为的关键假设》博文中的测试数据,地址:https://blog.csdn.net/neweastsun/article/details/146866
2025-03-31
EDR( Endpoint Detection and Response:端点检测和响应)测试数据,这些数据可能来自主流工具 用于学习探索性分析
2024-12-19
实现项目中,经常需要查看parquet文件的结构,甚至对比两个文件的字段或类型差异 本文通过DuckDB完成介绍查看并对比parquet文件结构过程,希望对你有帮助
2024-12-19
dbt 学习示例项目,非常适合初学者
2024-10-21
钻石示例数据,经典的机器学习示例数据,parquet格式、csv格式,方便用户下载学习
2024-09-16
Spring Cloud Spring Boot and Netflix OSS.pdf
2021-08-26
Elasticsearch Painless Script入门教程--示例数据-sat.json
2020-03-23
Elasticsearch Painless Script入门教程--示例数据-sat.json
2020-03-23
深入理解 significant terms 和 significant text 分组聚集代码 sports&news.json
2020-02-23
YSJSW(Yet Another Java Service Wrapper)
2016-08-30
kafka学习资料合集
2020-09-22
嵌套聚集示例数据--nested-data.json
2020-04-04
Elasticsearch聚合分析实战(2)-employees.json
2020-02-15
Effective Java 3rd Edition
2018-09-18
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人