自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(1298)
  • 资源 (29)
  • 收藏
  • 关注

原创 Dagster 构建可靠数据体系:从挑战到解决方案的完整路径

在当今数据驱动的世界中,数据可靠性已成为企业和组织成功的关键因素。数据可靠性不仅关乎数据的准确性,还涉及数据的一致性、完整性和可重复性。本文将深入探讨数据可靠性的定义、挑战、测量方法及最佳实践。

2025-06-12 20:38:21 388

原创 Dagster 实现数据质量自动化:6大维度检查与最佳实践

在当今数据驱动的世界中,数据质量的重要性不言而喻。数据质量测试是确保数据准确、完整、一致和可靠的关键步骤。本文将深入探讨数据质量测试的六大维度,并提供相关的检查方法和最佳实践。

2025-06-12 20:26:21 902

原创 Dagster软件定义资产(SDA)完全指南:从概念到落地实践

在数据工程领域,我们正经历一场静默但深刻的变革。传统的数据处理方式——基于任务的命令式编程——正在被一种更声明式、更以资产为中心的方法所取代。本文将深入探讨"软件定义资产"(Software-Defined Assets)这一新兴概念,分析它如何重塑数据管理的方式,并展示Dagster如何成为这一变革的先锋力量。

2025-06-11 21:27:06 759

原创 现代数据工程实践:基于Dagster的ETL架构设计与实现

在当今数据驱动的世界中,有效的数据处理流程至关重要。本文将带您通过一个完整的教程,学习如何使用Dagster构建一个功能强大的ETL(提取、转换、加载)管道。无论您是数据工程师、分析师还是对数据流水线感兴趣的技术爱好者,本教程都将为您提供实用的技能和深入的理解。

2025-06-11 21:04:21 1002

原创 数据工程全景指南:从基础概念到最佳实践

在数字化转型的浪潮中,“数据工程”已成为企业构建数据驱动决策能力的核心环节。它不仅是数据分析与人工智能的基石,更是连接海量数据与商业价值的桥梁。本文将深入解析数据工程的定义、核心职责、技术架构及实践策略,帮助读者全面掌握这一关键领域。

2025-06-10 21:25:21 613

原创 Druid段大小与缓存策略优化指南:提升查询性能的实战技巧

Druid 是一个高性能的分布式实时分析数据库,广泛应用于日志分析、时序数据处理和交互式查询场景。其查询性能很大程度上依赖于**段(Segment)大小**和**缓存策略**的优化。本文结合Druid官方文档,深入探讨如何调整段大小和缓存策略,以提升查询性能。

2025-06-10 01:30:00 988

原创 数据工程师必读:Dagster概念体系完全指南(附概念关系图解)

本文深入解析了Dagster数据编排平台的核心概念体系,为数据工程师提供了系统化的理解框架。文章详细介绍了资产(Asset)、作业(Job)、资源(Resource)等关键抽象概念及其相互关系,探讨了Dagster如何通过声明式编程和模块化设计简化数据管道管理。通过概念关系图的可视化呈现,本文帮助读者建立对Dagster架构的完整认知,为构建可靠、可维护的数据基础设施提供理论指导。

2025-06-09 20:44:10 1162

原创 PyTorch学习路径与基础实践指南

本文综合了Sling Academy的两篇PyTorch入门教程精华,为初学者提供了一条清晰的学习路径和实用的基础实践指南。文章首先概述了学习PyTorch的完整路线图,从基础知识准备到环境设置,再到神经网络构建与模型训练。随后深入讲解了PyTorch的核心概念,包括张量操作和简单神经网络的实现。通过丰富的代码示例和详细解释,本文旨在帮助读者建立扎实的PyTorch基础,为更复杂的机器学习项目打下坚实基础。

2025-06-09 20:18:37 562

原创 如何彻底解决生产缺料问题?BOM管理的5个关键实践指南

在现代制造业中,物料清单(Bill of Materials, BOM)被誉为"产品DNA",它承载着产品构成的全部信息。据统计,制造业中约30%的生产延误和20%的额外成本直接源于BOM管理问题。本文将从BOM的基础概念出发,深入分析导致生产缺料的核心原因,并提供经过验证的5个关键实践方案,帮助制造企业构建更健壮的BOM管理体系。

2025-06-08 00:00:00 1593

原创 齐套率分析:概念、计算与实际应用场景详解

在制造业、供应链管理和项目管理中,**齐套率(Kitting Rate)**是一个关键指标,它直接影响生产效率、交付周期和客户满意度。本文将深入解析齐套率的概念、计算方法,并结合实际场景探讨其应用价值。

2025-06-07 10:30:47 776

原创 SQLMesh实战:用虚拟数据环境和自动化测试重新定义数据工程

在数据工程领域,**软件工程实践**(如版本控制、测试、CI/CD)的引入已成为趋势。尽管像 **dbt** 这样的工具已经推动了数据建模的标准化,但在**测试自动化、工作流管理**等方面仍存在不足。**SQLMesh** 应运而生,旨在填补这些空白,提供更高效、可靠的数据工程解决方案。本文将深入探讨 SQLMesh 的核心功能、架构设计及其对数据工程实践的影响,并通过一个实战示例展示其优势。

2025-06-07 09:29:16 931

原创 Apache Druid数据汇总(Rollup)实战指南

Apache Druid 是一款高性能的实时分析数据库,其核心特性之一是**数据汇总(Rollup)**,它能在数据摄入阶段进行预聚合,显著减少存储空间并提升查询性能。本文将深入讲解 Druid 的 Rollup 机制、示例及实用技巧。通过实际案例,您将学会如何利用 Rollup 优化 Druid 数据存储和查询性能。

2025-06-06 01:00:00 826

原创 Apache Druid 架构深度解析:构建高性能分布式数据存储系统

Apache Druid 是一个为实时分析和大规模数据集设计的分布式数据存储系统。本文将深入解析 Druid 的架构设计,探讨其各个组件的功能与交互方式,帮助您理解如何利用 Druid 构建高性能的数据分析平台。

2025-06-05 20:36:06 1981 1

原创 使用 DuckLake 和 DuckDB 构建 S3 数据湖实战指南

本文介绍了由 **DuckDB** 和 **DuckLake** 组成的轻量级数据湖方案,旨在解决传统数据湖(如Hadoop+Hive)元数据管理复杂、查询性能低及厂商锁定等问题。该方案为中小规模数据湖场景提供了简单、高性能且无厂商锁定的替代选择。

2025-06-05 17:16:38 1116

原创 InfluxDB数据爆炸式增长,如何解决保留策略与降采难题?

在当今大数据与高速度分析的时代,时间序列数据库如InfluxDB已成为企业监控实时指标、分析历史数据和生成决策洞察的核心基础设施。然而,随着数据量的爆炸式增长,如何有效管理这些数据成为了一个关键挑战。在InfluxDB OSS v2版本中,数据保留和降采样策略的实现方式发生了重大变化。旧版的保留策略(Retention Policy)和连续查询(Continuous Query)已被新的**数据生命周期管理**和**Task**功能所取代。本文将全面介绍如何在InfluxDB OSS v2中使用Task实现

2025-06-04 02:00:00 427

原创 InfluxDB OSS v2 安全架构深度解析:认证与授权的实战指南

在当今混合云、远程办公和微服务架构盛行的时代,数据安全已成为企业数字化转型的核心挑战。作为企业时间序列数据管理的基石,InfluxDB OSS v2 不仅提供了卓越的性能和灵活性,更构建了一套完善的安全防护体系。本文将深入剖析 InfluxDB OSS v2 的认证(Authentication)与授权(Authorization)机制,通过实际案例和代码示例,帮助您构建坚不可摧的数据安全防线。

2025-06-04 01:45:00 900

原创 InfluxDB性能瓶颈破解:查询缓存设计模式与内存存储调优秘籍

在时间序列数据库的世界里,InfluxDB以其高效处理高频率数据的能力而闻名。然而,即使拥有强大的TSM索引机制,系统性能仍可能遇到瓶颈——尤其是在面对海量重复查询或实时分析需求时。本文将深入探讨两个被低估但极其重要的性能优化利器:**查询缓存(Query Caching)**和**内存存储(In-Memory Storage)**,并通过实战代码和解决方案展示如何最大化它们的价值。

2025-06-03 00:30:00 943 1

原创 基于百万级监控数据的InfluxDB索引调优经验总结

在当今数据驱动的世界中,数据库查询性能直接影响业务决策的效率。对于时间序列数据库 **InfluxDB** 而言,高效的数据检索能力尤为重要,尤其是在处理高频率数据点或海量历史数据时。索引(Indexing)作为提升查询速度的关键技术,能够显著优化 InfluxDB 的性能表现。本文将深入探讨 InfluxDB 的索引机制、类型、优化策略,并结合示例代码展示如何实践高效的索引管理。

2025-06-03 00:00:00 731

原创 会计科目主数据:企业数字化转型的“数据总线“与财务核算基石

在数字化浪潮席卷全球的今天,企业数据管理面临前所未有的挑战与机遇。作为财务管理的核心要素,会计科目不仅是ERP系统的基础架构,更是连接企业各业务系统的"数据总线"。本文将深入解析会计科目作为主数据的本质特征、跨系统应用模式、管理挑战及未来发展趋势,带您全面认识这一关键数据资产在企业管理中的战略价值。

2025-06-02 00:15:00 801

原创 主数据编码体系全景解析:从基础到高级的编码策略全指南

在数字化转型的浪潮中,主数据管理(MDM)已成为企业数字化转型的基石。而主数据编码作为MDM的核心环节,其设计质量直接关系到数据管理的效率、系统的可扩展性以及业务决策的准确性。本文将系统性地探讨主数据编码的七大核心策略,从基础编码到高级编码,从简单规则到复杂体系,带您深入理解每种编码方式的本质、适用场景及设计要点。

2025-06-02 00:00:00 727

原创 InfluxDB 高级分析实战:预测、技术指标与异常检测全指南

InfluxDB 不仅是强大的时序数据存储引擎,更是企业构建智能分析系统的核心平台。本文全面解析如何利用 InfluxDB 内置函数与 Python 生态实现,同时分享性能优化与模型调优的最佳实践,助你构建可靠、高效的智能分析系统。

2025-06-01 07:08:18 652

原创 InfluxDB 高级查询技巧:子查询与动态字段选择实战指南

InfluxDB 的强大不仅在于数据存储,更在于其支持 **子查询(Subqueries)** 和 **动态字段选择(Dynamic Field Key Selection)** 等高级查询能力。本文通过真实代码示例,深入解析如何利用这些功能实现复杂数据分析,同时提供性能优化建议,助你高效驾驭 InfluxDB 的高级查询能力。

2025-06-01 01:00:00 1491

原创 InfluxDB 高级函数详解:DERIVATIVE、INTEGRAL、SPREAD、HISTOGRAM 与 DIFFERENCE

在时序数据分析中,除了基础的聚合函数(如 `MEAN`、`SUM`),InfluxDB 还提供了一系列专门针对时间序列特性的高级函数。这些函数能帮助我们挖掘数据的变化趋势、波动特征和分布规律。下面我们将逐一解析五个关键函数:`DERIVATIVE()`、`INTEGRAL()`、`SPREAD()`、`HISTOGRAM()` 和 `DIFFERENCE()`,并通过实际场景说明其应用价值。

2025-05-31 11:59:12 706

原创 InfluxQL 数据分析实战:聚合、过滤与关联查询全解析

InfluxQL 作为时序数据库的专用查询语言,在处理时间序列数据时展现出独特优势。本文深入探讨 **聚合计算、数据过滤和跨测量关联** 三大核心操作,通过真实代码示例展示如何从海量时序数据中提取关键洞察。文中涵盖从基础平均值计算到复杂多维度分析的完整流程,并提供性能优化建议,助你高效驾驭 InfluxDB 的数据分析能力。

2025-05-31 11:26:39 524

原创 优化 InfluxDB 写入性能:高效批处理策略实战指南

在处理高吞吐量时序数据时,合理运用批处理(Batching)策略是提升 InfluxDB 写入性能的关键。本文介绍 **时间驱动、大小驱动和混合批处理策略**,并通过 Python 代码示例展示如何优化数据写入,平衡 **延迟与吞吐量**。同时,提供 **最佳实践**,如监控调优、客户端配置优化、错误处理等,帮助读者找到适合自身场景的批处理 "甜点",最大化 InfluxDB 的写入效率。

2025-05-31 10:29:43 687

原创 探索Python中的Dask:高效处理大规模数据的利器

在当今数据驱动的时代,处理大规模数据集已成为许多领域的重要挑战。Python作为数据科学和机器学习领域的主流编程语言,虽然拥有NumPy和Pandas等强大的库,但在面对超出内存限制的大数据集时,这些工具往往显得力不从心。Dask作为一款开源的并行计算库,为Python带来了新的解决方案,它不仅能够扩展Python的计算能力,还能提供灵活且用户友好的接口来管理大规模数据和复杂计算。

2025-05-29 08:56:03 1080

原创 深入理解SQLMesh中的Lookback、Forward-Only和Auto-Restatement特性

在数据仓库和ETL(Extract, Transform, Load)流程中,处理数据变更、延迟到达的数据以及模式变更是一项挑战。SQLMesh作为一款强大的数据建模工具,提供了多种特性来帮助数据工程师优雅地处理这些问题。本文将深入探讨SQLMesh中的三个关键特性:Lookback、Forward-Only和Auto-Restatement,以及它们如何帮助构建更健壮的数据管道。

2025-05-29 00:00:00 1037

原创 UTC与本地时区的区别:为什么SQLMesh要求时间列使用UTC?

本文系统讲解了SQLMesh中增量模型的核心属性(如time_column、batch_size、lookback等),结合实际场景分析其配置方法与最佳实践。重点阐述为何​​时间列(UTC)​​是增量模型的基础,如何通过合理设置批次大小、并发度及回溯窗口提升性能,并针对常见问题(如时区冲突、自动重述风险)提供解决方案。文章还给出高频更新表与低频更新表的配置示例,帮助工程师优化数据管道效率,确保系统稳定性和数据一致性。

2025-05-28 01:45:00 1175

原创 SQLMesh增量模型属性全解析:从基础配置到性能优化实践

本文深入探讨SQLMesh中增量模型的关键属性,包括time_column、batch_size、batch_concurrency等。详细解释各属性的作用、配置方法及适用场景,并结合实际案例给出配置建议和最佳实践,同时针对常见问题提供解决方案,帮助读者充分利用SQLMesh的增量模型功能,优化数据处理流程。

2025-05-28 01:30:00 1138

原创 Python优雅执行SSH命令:10种方法+虚拟环境深度实践

SSH作为网络安全的基石,广泛应用于远程管理、文件传输和自动化任务。Python凭借其丰富的生态(如`paramiko`、`fabric`)和简洁语法,成为编写SSH脚本的首选语言。本文将系统梳理通过Python执行SSH远程命令的十种主流方法,并重点讲解如何在远程服务器上激活Python虚拟环境后执行命令,帮助开发者根据需求灵活选择技术方案。

2025-05-27 20:50:44 857

原创 Drools从入门到实战,提升系统灵活配置能力

**Drools** 是一个强大的 **业务规则管理系统(BRMS)**,它允许开发者以 **声明式方式** 定义业务逻辑,使规则变更更加灵活,无需修改代码即可调整业务策略。本文将带你深入了解 Drools 的核心概念、基本配置、规则编写方式(DRL 和决策表),并展示如何在 Java 项目中集成 Drools,实现动态业务规则管理。

2025-05-27 14:33:31 974

原创 SQLMesh 用户定义变量详解:从全局到局部的全方位配置指南

SQLMesh 提供了灵活的多层级变量系统,支持从全局配置到模型局部作用域的变量定义。本文将详细介绍 SQLMesh 的四类用户定义变量(global、gateway、blueprint 和 local)以及宏函数的使用方法。

2025-05-26 21:36:13 1402

原创 基于规则匹配实现企业政策精准匹配实战案例

在数字化政务和企业服务领域,**政策匹配**是一项重要应用。企业具备的条件(如专利数量、研发投入、营收规模等)需要与政府出台的政策(如高新技术企业认定、研发补贴、税收优惠等)进行智能匹配,帮助企业快速找到符合自身条件的政策奖励。

2025-05-24 16:25:05 836

原创 从数据到决策:ABC分类法在供应链伙伴选择中的实战应用

在全球化竞争的制造业中,供应链效率直接影响企业的交付能力、成本控制和客户满意度。如何从200多家供应商中快速识别关键合作伙伴?如何将历史采购数据、质量指标、交付绩效转化为可执行的决策依据?**ABC分类法**(Activity-Based Classification)——这一源自经济学帕累托法则的经典方法,能帮助制造业企业科学地划分合作伙伴等级,优化资源分配。而作为**数据分析师或程序员**,你可能更关心:**如何用Python自动化计算分类?如何动态调整模型参数?如何结合机器学习提升预测能力?**

2025-05-24 15:31:16 699

原创 SQLMesh Typed Macros:让SQL宏更强大、更安全、更易维护

在SQL开发中,宏(Macros)是一种强大的工具,可以封装重复逻辑,提高代码复用性。然而,传统的SQL宏往往缺乏类型安全,容易导致运行时错误,且难以维护。**SQLMesh** 引入了 **Typed Macros(类型化宏)**,结合Python的类型提示(Type Hints),让SQL宏更强大、更安全、更易维护。本文将深入探讨Typed Macros的核心优势、使用方法及最佳实践。

2025-05-23 10:23:14 1115

原创 手把手教你将Dagster部署为本地服务:从核心组件到实战场景

Dagster作为新一代数据编排平台,通过声明式工作流和可视化界面显著提升了数据工程效率。本文不仅详解单机部署流程,还将深入解析**Webserver**和**Daemon**的核心作用,并针对不同场景提供针对性部署建议。

2025-05-22 18:19:10 851

原创 SQLMesh 宏操作符详解:提升 SQL 查询的灵活性与效率

SQLMesh 提供了一系列强大的宏操作符(如 `@WITH`、`@JOIN`、`@WHERE` 等),用于动态构建 SQL 查询。这些操作符不仅简化了复杂查询的编写,还提高了代码的可读性和可维护性。本文将深入探讨这些操作符的使用场景、语法及实际案例,帮助开发者更高效地利用 SQLMesh 进行数据处理。

2025-05-22 14:06:14 1097

原创 SQLMesh 宏操作符详解:@IF 的条件逻辑与高级应用

SQLMesh 的 `@IF` 宏提供了一种在 SQL 查询中嵌入条件逻辑的方法,允许根据运行时条件动态调整查询结构。本文深入探讨 `@IF` 的语法、使用场景及实际案例,帮助开发者构建更灵活、可维护的 SQL 工作流。

2025-05-21 20:31:56 730

原创 MinIO纠删码技术解析:数据冗余与高可用的存储密码

在分布式存储系统中,硬盘故障如同"灰犀牛事件"——你明知它会发生,却无法预测具体时间。传统三副本方案虽可靠,但存储成本高达300%。MinIO的纠删码(Erasure Coding)技术通过数学算法,在保障数据安全的同时将存储开销压缩至50%以下。本文将深入解析其核心机制与应用场景。

2025-05-21 16:44:38 938

原创 SQLMesh 内置宏详解:@PIVOT等常用宏的核心用法与示例

本文系统解析 SQLMesh 的四个核心内置宏,涵盖行列转换的 `@PIVOT`、精准去重的 `@DEDUPLICATE`、灵活生成日期范围的 `@DATE_SPINE`,以及动态表路径解析的 `@RESOLVE_TEMPLATE`。通过真实案例演示参数配置与 SQL 渲染逻辑,并对比宏调用与传统 SQL 的差异,助您高效构建标准化数据处理流程。

2025-05-20 21:01:38 809

项目管理调查问卷

项目管理调查问卷,非常好,对于我们确认需求很有帮助!

2012-04-24

《示例学习kettle之Excel Writer步骤》博客文章示例

《示例学习kettle之Excel Writer步骤》博客文章示例代码,很好的Excel Writer步骤学习资料。

2014-09-16

《检查处理kettle数据流中的空行》示例附件代码

《检查处理kettle数据流中的空行》示例附件代码 ,是学习kettle 的最佳教程示例,可以在blog中看到本教程。

2014-09-05

《在Tomcat上安装部署SAIKU》资源下载

Saiku是一个强大的独立工具,用于查询构建数据集市,如:即席查询报表、图表展示、导出报表成excel或csv格式等。Saiku是基于Mondrian OLAP引擎。本文主要是一步一步解释如何在tomcat下部署saiku,为了让你更好更快的使用。开始之前,假设你已经比较熟悉数据集市数据库,以及如何建立Mondrian Schema。

2015-02-10

《kettle子转换即映射》博客示例代码

《kettle子转换即映射》博客示例代码; http://blog.csdn.net/neweastsun/article/details/39804383

2014-10-05

《使用javascript访问kettle内部组件》示例代码

《使用javascript访问kettle内部组件》示例代码

2014-10-08

《使用kettle把XML文档转换成数据表结构》附件

使用kettle把XML文档转换成数据表结构 blog中的示例附件,需要请下载学习!

2014-09-02

《kettle中使用javascript步骤和fireToDB函数实现自定义数据库查询 》代码

kettle中使用javascript步骤和fireToDB函数实现自定义数据库查询

2014-10-29

《kettle中调用java类》示例代码

《kettle中调用java类》示例代码;http://blog.csdn.net/neweastsun/article/details/40022823

2014-10-12

《kettle中实现动态SQL查询》博客文章示例代码

通过示例学习kettle动态查询,可以使用问号占位符或命名参数,并详细说明两者的区别。

2014-09-15

《kettle中访问前一行数据》示例附件

《kettle中访问前一行数据》示例附件 学习kettle最佳示例之一

2014-09-05

《job中使用循环》中的示例下载

《job中使用循环》中的示例下载,对学习kettle有帮助

2014-09-04

《job中执行每行》示例下载

《job中执行每行》示例下载,对学习kettle中的循环有帮助

2014-09-04

《详解kettle之User Defined Java Class步骤》示例代码

《详解kettle之User Defined Java Class步骤》示例代码,是最详细的udjc步骤说明文档,有示例理解更容易,更全面。

2014-09-07

《使用kettle批量下载文件》示例代码

使用kettle批量下载文件的示例代码,详细内容可以查看博客对应的文章。

2014-09-10

《在kettle中实现数据验证和检查》示例代码

《在kettle中实现数据验证和检查》示例代码,学习数据验证和检查的最佳示例。

2014-09-17

mysql驱动程序 用与Java访问MySQL数据库

mysql驱动程序 用与Java访问MySQL数据库

2008-09-05

数据库设计规范

设计数据库的全面总结,配合工具,是非常好用的数据库设计工具; 跨数据库,一次设计,同时生成不同数据库的创建表脚本; 有截图,非常有参考价值;

2013-07-09

饭店运营测试数据,《DuckDB系列教程:如何分析Parquet文件》引用 地址:https://blog.csdn.net/neweastsun/article/details/147002265

饭店运营测试数据,学习DuckDB数据分析资料。数据结构如下: ┌────────────────┬─────────────┬───────── │ column_name │ column_type │ null │ │ varchar │ varchar │ varchar │ ├────────────────┼─────────────┼───────── │ order_id │ BIGINT │ YES │ customer_name │ VARCHAR │ YES │ table_number │ BIGINT │ YES │ menu_item │ VARCHAR │ YES │ price │ DOUBLE │ YES │ quantity │ BIGINT │ YES │ order_time │ VARCHAR │ YES

2025-04-04

分析示例数据,《DuckDB统计实战:两步验证小费行为的关键假设》博文中的测试数据,地址:https://blog.csdn.net/neweastsun/article/details/146866

字段信息如下:ride_id date pickup_location dropoff_location fare tip total_amount total_distance_km duration_min payment_type

2025-03-31

EDR( Endpoint Detection and Response:端点检测和响应)测试数据,这些数据可能来自主流工具 用于学习探索性分析

示例数据说明:这个 JSON 数据结构非常全面且详细地记录了一次与端点检测和响应相关的事件信息,从事件本身的基础情况、涉及的设备、文件、进程到各种描述、时间、风险状态等多方面进行了呈现,多条这样的记录组成的数据集可用于安全分析、威胁追踪、系统监控等众多相关场景。 《DuckDB:JSON数据探索性分析实战教程》博客中使用的数据,地址:https://blog.csdn.net/neweastsun/article/details/144592773?sharetype=blogdetail&sharerId=144592773&sharerefer=PC&sharesource=neweastsun&spm=1011.2480.3001.8118

2024-12-19

实现项目中,经常需要查看parquet文件的结构,甚至对比两个文件的字段或类型差异 本文通过DuckDB完成介绍查看并对比parquet文件结构过程,希望对你有帮助

《duckdb:利用集合操作分析parquet文件结构差异》https://blog.csdn.net/neweastsun/article/details/144589270?spm=1001.2014.3001.5501的资源文件,供下载实际动手需要。

2024-12-19

dbt 学习示例项目,非常适合初学者

虚拟电商场景,包括订单、客户、付款信息。加工生成客户模型和订单模型。通过该示例我们可以快速学习dbt的常用命令,模型开发、模型测试及文档相关知识。 前面写了一系列dbt相关博客,但却没有介绍dbt官方提供的入门示例项目。今天带你完整运行该项目,包括数据源配置、运行dbt相关命令,最后生成项目文档。通过实际项目学习,会加深对dbt理解,也建议你卷起袖子,行动起来。学习dbt可以参考我的数据分析工程专栏:https://blog.csdn.net/neweastsun/category_12786252.html

2024-10-21

钻石示例数据,经典的机器学习示例数据,parquet格式、csv格式,方便用户下载学习

钻石示例数据,经典的机器学习示例数据,parquet格式、csv格式,方便用户下载学习。学习dbt资料,可参考系列博客:https://blog.csdn.net/neweastsun/category_12786252.html

2024-09-16

Spring Cloud Spring Boot and Netflix OSS.pdf

Spring Cloud Spring Boot and Netflix OSS.pdf

2021-08-26

Elasticsearch Painless Script入门教程--示例数据-sat.json

Elasticsearch Painless Script入门教程--示例数据。 自Elasticsearch 5.x 引入Painless,使得Elasticsearch拥有了安全、可靠、高性能脚本的解决方案。Painless是Elastic开发并做了专门的优化,相较之前的脚本更快、安全、易使用、可靠。 Painless脚本的目标是使编写脚本对用户来说无痛,特别是对于来自Java或Groovy环境的用户。可能你还不熟悉Elasticsearch脚本,让我们从基础开始。

2020-03-23

R实战综合指数评价法示例教程的示例数据

R实战综合指数评价法示例教程的示例数据

2022-01-08

kettle生成xml示例

http://blog.csdn.net/neweastsun/article/details/52457290;文章的示例程序。

2016-09-07

Elasticsearch Painless Script入门教程--示例数据-sat.json

Elasticsearch Painless Script入门教程--示例数据。 自Elasticsearch 5.x 引入Painless,使得Elasticsearch拥有了安全、可靠、高性能脚本的解决方案。Painless是Elastic开发并做了专门的优化,相较之前的脚本更快、安全、易使用、可靠。 Painless脚本的目标是使编写脚本对用户来说无痛,特别是对于来自Java或Groovy环境的用户。可能你还不熟悉Elasticsearch脚本,让我们从基础开始。

2020-03-23

深入理解 significant terms 和 significant text 分组聚集代码 sports&news.json

深入理解 significant terms 和 significant text 分组聚集 代码。地址:https://blog.csdn.net/neweastsun/article/details/104467440

2020-02-23

YSJSW(Yet Another Java Service Wrapper)

YSJSW(Yet Another Java Service Wrapper) 可以配置java应用为windows服务。

2016-08-30

kafka学习资料合集

Apache Kafka Cookbook(PACKT,2015) kafka-definitive-guide-complete learning-apache-kafka-second-edition 学习kafka的最好资料,希望对你有用。

2020-09-22

嵌套聚集示例数据--nested-data.json

学习elasticsearch嵌套聚集所需的示例数据,方便学习者进行测试。 关于城市宠物注册的web应用,系统包括下列一些实体: * City(city, type) * Citizen(occupation,age) * Pet(kind,name,age) city包括多个citizen,citizen包括多个注册pet。

2020-04-04

Elasticsearch聚合分析实战(2)-employees.json

Elasticsearch聚合分析实战(2) 博客地址:https://blog.csdn.net/neweastsun/article/details/104324747

2020-02-15

Effective Java 3rd Edition

Effective Java 3rd Edition,Effective Java 3rd EditionEffective Java 3rd EditionEffective Java 3rd EditionEffective Java 3rd EditionEffective Java 3rd Edition

2018-09-18

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除