自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(17)
  • 资源 (7)
  • 收藏
  • 关注

原创 Claude Code保姆级安装使用指南

《终端AI编程工具ClaudeCode快速指南》摘要:ClaudeCode是Anthropic推出的终端AI编程工具,可直接在终端完成代码生成、调试修复、项目理解等任务。只需Node.js18+环境,通过npm全局安装即可使用。核心功能包括:根据描述生成完整功能代码(如React组件)、智能调试修复错误、回答项目结构问题、自动化处理Git合并冲突等。支持管道命令组合实现日志监控等复杂工作流,并可与VSCode等IDE集成。该工具特别适合需要快速开发迭代和解决技术问题的场景,同时支持企业级安全部署。

2025-10-17 09:59:38 65

原创 基于Spring AI Alibaba构建NLP2SQL智能查询系统,让业务人员轻松玩转大数据

在大数据时代,数据驱动决策已成为企业核心竞争力。学习曲线陡峭:SQL语法复杂,掌握需要大量时间成本沟通成本高:业务人员需向技术人员反复解释需求效率低下:简单的查询需求也要等待技术排期容易出错:不熟悉的开发者编写的SQL性能低下今天我将分享如何基于构建一个企业级的自然语言转SQL系统,让AI成为你的专属SQL编写助手!✅ 技术创新:将AI大模型能力与数据库查询完美结合✅ 用户体验:自然语言交互,真正零学习成本✅ 企业级可靠:高可用、高性能、高安全性架构✅ 可扩展性:模块化设计,易于定制和扩展。

2025-08-21 17:28:22 1141

原创 Paimon主键表的合并机制

Paimon主键表提供三种数据合并机制:1) deduplicate(默认)保留最新数据并删除旧数据,支持删除操作;2) first-row保留首条数据,效率更高但不处理删除操作;3) partial-update支持增量更新,保留非空列值。特殊场景下可通过sequence字段控制合并顺序,或通过aggregation函数实现聚合操作。每种机制各有特点,需根据业务需求选择,如deduplicate适合简单去重,partial-update适合列式更新场景,first-row适合仅需保留首次数据的场景。

2025-07-25 14:39:43 999

原创 Flink 1.20 SQL 物化表(Materialized Table)

Apache Flink 1.20 作为迈向 2.0 时代的最后过渡版本,引入了​ 这一革新性特性。它通过统一的 SQL 接口重构了流批数据处理管道的开发范式,显著降低了实时数据加工的复杂度。本文将深入解析其核心原理与实践价值。在创建物化表时指定数据新鲜度和查询,引擎会自动推导物化表的模式,并创建相应的数据刷新管道以实现指定的新鲜度。

2025-07-14 16:33:11 1320

原创 Paimon Action Jars原子化的数据管理

Apache Paimon 通过 ​Flink Action Jars​ 提供原子化的数据管理能力,无需启动 SQL 环境即可执行表维护、数据合并与元数据操作。其核心价值在于:​关键语义定义​:​场景 1:订单状态批量更新​​场景 2:跨 Catalog 动态源表​​场景 3:数据归档与清理​三、关键数据管理操作详解1. ​条件删除 (Delete Action)​​​高级能力​:​注意事项​:​核心价值​: ​并行度控制​:通过 Catal

2025-06-27 14:50:22 846

原创 Apache Paimon Procedures 深度解析

Paimon Procedures通过 ​​“元数据操作代替计算作业”​​资源效率​:节省90%的运维计算资源​敏捷响应​:命令执行从分钟级降至秒级​生态统一​:复用SQL技能降低学习成本随着Flink 2.0对Call Statements的深度集成,Paimon有望成为首个实现 ​​“完全SQL驱动”​​ 的数据湖格式,推动流批一体架构进入新纪元。

2025-06-22 17:44:09 664

原创 Apache Paimon 分区表:从创建到过期管理

Paimon 分区表通过声明分区字段,支持单字段或多字段组合。​关键约束​:若表定义主键,分区字段必须是主键的子集。-- 单字段日期分区(主键包含分区字段)dt STRING,-- 多字段复合分区(需主键包含所有分区字段)Apache Paimon 的分区管理能力为实时数据湖提供了灵活、高效的生命周期管理方案。通过合理设计分区策略、结合流批一体特性,开发者可以构建高性能、低成本的数据处理管道。

2025-05-27 16:27:08 1193

原创 flink1.12连接hive2.1.1中 hadoop版本问题

通过排查ShimLoader.java源码,开源社区hive 2.x的版本这种情况下是不支持hadoop 3.x版本。但是CDH中hive 2.1.1-cdh6.3.2版本和社区版本是不一样的,可以支持hadoop 3.x版本。对于普通的文本格式的hive表是可以正常查询的,但是对于orc格式的hive表,基于CDH-6.3.2这个环境是会报错的。

2025-05-26 14:23:03 205

原创 Kyuubi+Spark+Hive:构建新一代大数据服务化架构实战

本文通过深度整合Kyuubi、Spark和Hive,构建了支持高并发、低延迟的SQL服务化平台。该方案已在某头部电商的生产环境支撑日均10万+查询,资源利用率提升40%。随着云原生技术的普及,这种架构将成为大数据基础建设的标准范式。​延伸阅读​Apache Kyuubi官方文档:https://kyuubi.apache.org/Spark性能优化权威指南(CSDN专题)(本文代码实测环境:OpenJDK 11,Hadoop 3.3.4,欢迎在评论区获取完整配置包)​结构化亮点​技术深度。

2025-05-26 14:20:15 772

原创 Python入门教学:第一章 从零开始编写你的「疫情数据追踪程序」

一行代码验证安装效果(打开CMD/Terminal输入。用VS Code创建超维空间站。f"确诊{500}"

2025-03-22 17:11:44 278

原创 Paimon 表类型详解:从基础到高级应用

Paimon 支持多种表类型,每种类型都有其独特的应用场景和优势。带主键的表(Table with PK):支持主键约束,确保数据的唯一性,适合需要频繁更新和查询的场景。无主键的表(Table w/o PK):适用于追加数据的场景,不支持直接更新,但支持批量操作。视图(View):虚拟表,依赖于元数据存储,适合跨引擎查询。格式表(Format Table):支持多种文件格式,如 CSV、Parquet、ORC、JSON,适合与 Hive 表集成。对象表(Object Table)

2025-03-19 13:45:35 1026

原创 Paimon Catalog 与Spark引擎的表管理

文件系统元数据存储(默认):元数据和表文件都存储在文件系统中。Hive 元数据存储:元数据存储在 Hive Metastore 中,用户可以直接从 Hive 访问表。JDBC 元数据存储:元数据存储在关系型数据库(如 MySQL、Postgres 等)中。本文详细介绍了如何在 Paimon 中创建和管理 Catalog 和表。通过不同类型的 Catalog,您可以灵活地选择元数据存储方式,并通过 SQL DDL 语句轻松管理表、视图和标签。希望这篇指南能帮助您更好地理解和使用 Paimon 的强大功能。

2025-03-18 15:15:38 2358

原创 Kyuubi vs Spark Thrift Server vs Hive Thrift Server:全面对比与深度解析

在大数据生态系统中,SQL-on-Hadoop 技术一直是一个热门话题。随着数据规模的不断增长,企业和开发者需要高效、灵活的工具来执行分布式 SQL 查询。Kyuubi、Spark Thrift Server 和 Hive Thrift Server 是三种常见的 SQL 服务解决方案,它们各自有不同的设计目标、适用场景和性能特点。本文将深入对比这三者的架构、功能、性能、适用场景以及优缺点,帮助读者更好地选择适合自己业务需求的工具。

2025-03-13 13:31:37 735

原创 Kyuubi + Spark:构建高效的大数据查询与分析平台

Kyuubi 是一个开源的分布式 SQL 服务,基于 Apache Spark 构建,旨在为多租户环境提供高效、稳定的 SQL 查询服务。Kyuubi 的核心目标是通过资源隔离、查询优化和统一管理,提升 Spark 在大规模数据查询中的性能和可用性。Apache Spark 是一个开源的分布式计算框架,以其高性能和易用性在大数据领域广受欢迎。Spark 支持批处理、流处理、机器学习和图计算等多种计算模式。Kyuubi + Spark 的集成为企业提供了一种高效、稳定的大数据查询与分析解决方案。

2025-03-13 10:24:04 1298

原创 Alluxio与S3、Hive的深度集成:实现高效数据加载与查询

在大数据生态系统中,Alluxio、S3和Hive是三个非常重要的组件。Alluxio作为一个分布式内存加速层,能够显著提升数据访问速度;S3是亚马逊提供的对象存储服务,广泛应用于数据存储;Hive则是基于Hadoop的数据仓库工具,用于数据查询和分析。本文将详细介绍如何将Alluxio与S3、Hive集成,实现高效的数据加载与查询。

2025-03-13 10:15:56 2169

原创 从入门到实战:手把手教你掌握DeepSeek开源工具的核心用法

DeepSeek的核心优势:轻量级架构与高性能计算的结合,对中文NLP任务的专项优化(如分词、实体识别),开源社区活跃,支持快速迭代

2025-03-03 14:40:14 2058

原创 【实战】Dinky 1.2.1集成Flink 1.18.1:Kubernetes全流程部署指南

USER root#下载dink jar并解压到与DokerFile 同级目录下#需要mysql 驱动# 添加创建软链接的命令注意:dinky 启动需要MySQL驱动。2.构建flink镜像Dockerfile#如有需要可自行加此配置。# 更改 s3-fs-hadoop 目录的所有者和所属组为 flink#如需kafak,可配置。

2025-03-03 10:45:32 951

ubuntu使用手册

ubuntu使用手册

2017-04-07

sublime_SFTP最新插件.zip

sublime sftp插件,最新版本 3207

2019-06-24

kafka大文件的代码

kafka的参数配置, 生产者的配置参数设置, 消费者的配置参数设置,read里写了配置参数的说明,

2020-01-03

基于51单片机和红外收发模块的远程温度控制与检测.ra

基于51单片机和红外收发模块的远程温度控制与检测.ra

2017-04-07

安装ganglia.txt

Ganglia由gmond、gmetad和gweb三部分组成。易收集很多系统指标数据,如CPU、内存、磁盘、网络和活跃进程的数据等。

2020-01-03

3__处理ping问题__frank.docx

处理ping问题.

2019-06-24

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除