大数据、数据仓库、数据治理、数据开发、数据库等相关数据方面经验分享~

在这个信息爆炸的时代，数据已成为企业最宝贵的资产之一。然而，如何有效地管理和利用这些海量的数据资源，成为了一个亟待解决的问题。本博客，旨在深入探讨大数据治理的各个方面，比如数据仓库建设与优化、数据治理框架与策略、数据开发与ETL流程、大数据生态圈组件

原创 MySQL如何进行SQL优化？

SQL优化经验分享：从慢查询到高效执行的实战技巧。文章总结了7个关键优化点：1）子查询改为JOIN可提升60倍性能；2）合理设计索引，关联字段必须建索引；3）多表关联需精心设计，避免复杂计算；4）行列转换先过滤后统计；5）避免ORDER BY RAND()；6）实用小技巧如ORDER BY NULL、优化WHERE顺序；7）强调持续优化的重要性。通过执行计划分析和数据监控，小改动可带来显著性能提升，让数据库查询更快更高效。

2025-07-21 08:00:00 306 2

原创数据库记录物理删除和逻辑删除哪个更合适?

逻辑删除相比物理删除具有显著优势：1. 作为增量数据获取的前置条件，逻辑删除只需对比更新时间，性能远高于物理删除的全量对比；2. 保留历史数据支持历史分析；3. 可通过冷数据归档实现查询优化；4. 物理删除在多数数据库中并不能实际减少存储占用（存在高水位线问题）；5. 当前存储成本低廉，逻辑删除能以较小存储代价获得多重收益。权衡利弊，逻辑删除是更优选择。

2025-07-21 08:00:00 881

原创 Apache DolphinScheduler系列9-批量停止运行中的工作流

Apache DolphinScheduler系列9-批量停止运行中的工作流。

2025-07-07 08:30:00 436

原创数据接口增全量设计方案总结

每次调用接口时，返回源系统中指定数据集的完整、最新快照。每次调用接口时，只返回自上一次成功获取数据之后发生变更（增、删、改）的那部分数据。原始系统在做表设计的时，按照规范，有 create_time 和update_time，为我们设计增量，天然提供了很好的条件部分表结构`id` varchar(32) COMMENT '主键' ,…………`is_delete` varchar(1) COMMENT '是否删除' ,

2025-07-07 08:30:00 1005

原创 MySQL性能优化：一次让系统飞起来的血泪实战经验

摘要：本文分享了一次MySQL数据库性能优化的实战经验。通过分析系统性能瓶颈，针对1000万级数据表的慢查询问题，采取了引擎切换（MyISAM到InnoDB）、索引优化（添加关键索引和联合索引）、表结构调整（日期字段类型修正）和分区策略等综合优化手段。同时调整了innodb_buffer_pool_size等关键参数，最终使系统吞吐率提升6倍，关键查询响应时间从3-4秒降至0.3-0.8秒。文章强调数据库优化需要整体考虑引擎、参数、索引、SQL和表结构等因素，并提供了可复用的优化思路和具体SQL示例。

2025-06-30 08:00:00 1110

原创数据中台该怎么干？

总的来说，数据中台就是把企业的数据资产管理起来，让数据真正为业务服务。但数据中台不一样，它要管数据的整个生命周期——从数据进来到最后被业务用掉，每个环节都得有章法。它本质上是一套完整的规则体系，不是什么高大上的概念，就是把数据这摊子事儿给理清楚、管起来。这里只说实际项目的干法，至于数据中台该用什么平台，用哪些技术模块，市面上有很多，各个公司也有自研的，这里就不展开了。这个阶段最累，各个部门扯皮，业务方说这样，技术方说那样，但这个基础不打牢，后面全是坑。最头疼的是那些"祖传系统"，文档没有，字段含义全靠猜。

2025-06-30 08:00:00 327

原创一条Rule 让Cursor额度暴涨

本文介绍了一种通过配置Rule规则提升Cursor AI工具使用额度的方法。针对付费用户仍感500次快速请求不足的问题，提出无需安装额外软件的解决方案——在Cursor配置中添加特定Rule规则，利用Windows自带Powershell实现单次会话多次调用，理论可将额度提升至12500次。该方法操作简单（仅需复制粘贴规则），有效延长Claude-4模型使用时长，同时解释了其25次/会话的技术原理及注意事项

2025-06-19 07:00:00 905

原创 MySQL5.7 慢查询SQL语句集合

本文提供了一系列SQL查询语句，用于分析和监控MySQL数据库中的慢查询性能问题

2025-06-19 07:00:00 366

原创 Cursor生成Java的架构设计图

Cursor 助力 Java 架构设计可视化摘要：Cursor 作为一款智能开发工具，通过 AI 技术简化了 Java 项目的架构设计流程。本文介绍了如何利用 Cursor 生成包含多种视图的架构设计图，包括模块依赖图、系统部署图、数据流程图等 8 种类型。重点说明了 Mermaid 语法规范，特别是颜色对比度要求和文本换行技巧（需使用<br>而非\n）。实现步骤包括：安装配置 Cursor、准备工程代码、安装 Markdown 预览插件，并通过特定 Prompt 生成架构文档。该方法显著提升

2025-06-07 15:58:13 1122

原创使用Conda管理服务器多版本Python环境的完整指南

本文介绍了使用Conda在服务器上管理多版本Python环境的解决方案。针对不同项目对Python版本的特定需求，Conda通过创建隔离环境实现版本和依赖管理，避免全局冲突。文章详细讲解了从安装Miniconda、创建指定版本环境到激活切换环境的操作步骤，并提供了环境克隆、共享配置等高级技巧。对比Pyenv工具，Conda具有预编译版本和全面环境隔离的优势。最后针对常见问题给出排查建议，帮助开发者实现灵活稳定的多版本Python管理。

2025-06-07 15:57:25 873

原创 Cursor生成Java的README文件

本文介绍了如何使用人工智能开发工具Cursor自动生成Java项目的README文件。Cursor通过其内置的Chat功能，能够根据用户提供的提示（Prompt）和工程代码，快速生成结构化的README文档。文章详细说明了生成README的背景、前置条件（如Cursor的安装与配置）、生成Prompt的示例，以及如何查看和预览生成的文档。通过这种方式，开发者可以大幅减少编写文档的时间，同时确保文档的完整性和专业性

2025-05-19 14:48:48 961

原创 Cursor日常配置指南

Cursor是一款AI驱动的代码编辑器，旨在提升开发效率。它具备AI代码补全

2025-05-19 14:48:17 1517

原创 Docker安装Ollama及使用Ollama部署大模型

Docker安装Ollama及使用Ollama部署大模型。

2025-05-03 17:59:24 1393 2

原创 Vmware设置静态IP和主机访问

Vmware设置静态IP和主机访问。

2025-05-03 17:59:08 1526

原创 MySQL主动报错方法及实践应用调度依赖

MySQL主动报错方法及实践应用调度依赖。

2025-04-23 07:00:00 1031

原创隧道 ssh -L 命令总结和 windows端口转发配置

加密隧道：所有流量通过 SSH 加密传输，避免明文暴露本地端口代理：将本地端口的访问请求转发到远程网络的指定地址和端口绕过防火墙/NAT：通过 SSH 跳板机访问原本无法直接连接的内部服务（如数据库、Web API）

2025-04-23 07:00:00 826

原创 Docker安装智能体平台Dify

Docker安装智能体平台Dify。

2025-04-16 07:00:00 1006

原创 MySQL月分区分表增量数据集成方案及实践

MySQL月分区分表增量数据集成方案及实践。

2025-04-16 07:00:00 1137

原创 MySQL只读权限视图批量生成建表语句

MySQL只读权限视图批量生成建表语句。

2025-04-07 07:00:00 872

原创 MySQL插入报错Incorrect string value ‘xF0x9Fx92xA1‘ for column

MySQL插入报错Incorrect string value ‘xF0x9Fx92xA1’ for column。

2025-04-07 07:00:00 1089

原创数据建模工具-PDManer使用技巧-贴源层

在数据治理过程中，我们经常和数据模型打交道，这时候我们就需要一个好的工具，来完成建模这个过程，PDManer就是本文的主角。

2025-03-31 07:00:00 1172

原创数据建模工具-PDManer使用技巧-模型层

在数据治理过程中，我们经常和数据模型打交道，这时候我们就需要一个好的工具，来完成建模这个过程，PDManer就是本文的主角。

2025-03-31 07:00:00 1773

原创增量日志明细处理共享经验总结

增量日志明细处理共享经验总结

2025-03-24 07:00:00 635

原创 Doris数据库系列2-数据湖功能-注册Hive和MySQL外部表

Doris数据库系列2-数据湖功能-注册Hive和MySQL外部表。

2025-03-24 07:00:00 2360

原创 Apache DolphinScheduler系列8-任务组因MySQL时区报错及经验总结

在调研了 DolphinScheduler 之后，在项目上实际使用了一段时间，遇到了任务组功能因为MySQL时区的原因报错了，解决思路分享

2025-03-14 07:00:00 1222 2

原创 MySQL连接较慢原因分析及解决措施

在使用MySQL的时候经常遇到**连接比较缓慢**的问题，总结了一下原因和结局措施

2025-03-14 07:00:00 1801

原创 Apache DolphinScheduler系列7-SQL任务因注释报错及经验总结

不要轻视SQL分段难度作为 Apache 的顶级项目，迭代到 3.2.0 版本还有这种低级的问题，我想可以归结为，都轻视了 SQL分段的难度，觉得这个只需要简单的关键字切分就可以了，事实上，我们公司现在的软件也有类似的问题，简单的使用分号作为分割多段 SQL 的依据，当我们的建表语句里的 comment 里有英文分号，也会导致报错，当然也不只是个例，我记得我上次使用开源工具 Apache Zeppelin 也有类似的问题。不要重复造轮子，使用成熟工具。

2025-03-09 07:00:00 1262

原创 Doris数据库系列1-单节点安装

Doris数据库系列1-单节点安装。

2025-03-09 07:00:00 1004

原创 MySQL登录报错 Can’t connect to local MySQL server through socket

在使用MySQL的时候，出现这个报错，整理了一下解决思路

2025-03-08 07:00:00 1206

原创 Datax安装步骤及优劣势分析

Datax安装步骤及优劣势分析

2025-03-06 07:00:00 967

原创 Apache DolphinScheduler系列6-Datax数据集成

在调研了 DolphinScheduler 之后，在项目上实际使用了一段时间，有了一些使用Datax做数据集成的实际经验

2025-03-06 07:00:00 1076

原创 Apache DolphinScheduler系列5-告警配置经验分享

在调研了 DolphinScheduler 之后，在项目上实际使用了一段时间，有了一些告警配置实际经验，主要是使用飞书

2025-03-04 07:00:00 512

原创 MySQL批量生成建表语句

在使用MySQL的时候，遇到需要在大批量的表中，挑选一部分表，权限又只有只读权限，工具又没有合适的，最终使用了MySQL后台表，生成建表语句，具体的做法

2025-03-04 07:00:00 1145

原创 Apache DolphinScheduler系列4-后台SQL经验分享

Apache DolphinScheduler系列4-后台SQL经验分享。

2025-03-02 07:00:00 1028

原创 Apache DolphinScheduler系列2-数据质量模块技术调研报告

Apache DolphinScheduler 是一个分布式易扩展的可视化DAG工作流任务调度开源系统。适用于企业级场景，提供了一个可视化操作任务、工作流和全生命周期数据处理过程的解决方案。Apache DolphinScheduler 旨在解决复杂的大数据任务依赖关系，并为应用程序提供数据和各种OPS编排中的关系。解决数据研发ETL依赖错综复杂，无法监控任务健康状态的问题。

2025-02-27 07:00:00 1117

原创 Apache DolphinScheduler系列3-任务配置经验分享

Apache DolphinScheduler系列3-任务配置经验分享。

2025-02-27 07:00:00 1227

原创数据仓库系列3-离线数仓和实时数仓

数据仓库的核心是展现层和提供优质的服务。ETL 及其规范、分层等所做的一切都是为了一个更清晰易用的展现层

2025-02-25 07:00:00 489

原创数据仓库系列4-数据治理及质量建设

数据仓库系列 4-数据治理及质量建设。

2025-02-25 07:00:00 209

原创 Apache DolphinScheduler系列1-单节点部署及测试报告

从部署环境的简介，到部署方案的介绍，以及实际的部署步骤，到解决具体的常见问题，最后给出简单的测试报告

2025-02-23 07:00:00 1589

原创 MySQL中文获取拼音的方法

MySQL中文获取拼音的方法。

2025-02-20 07:00:00 856 4

Sublime Text 3.zip

2021-05-05

PBIDesktopSetup_x64.exe

2021-04-09

Navicat Premium 15.zip

Navicat Preminm 15 好用的数据库连接客户端，可以连接多中常用数据库，mysql，mongodb等

2021-01-15

scala-intellij-bin-2020.2.5.zip

IntelliJ IDEA scala插件，给网络不好的下载本地直接安装

2021-01-15

windows安装spark2软件包.zip

windows安装spark2软件包包括： 1.spark-2.3.0-bin-hadoop2.7.tgz spark的压缩包 2.scala-2.11.8.zip scala的压缩包 3.hadoop-2.7.1.tar.gz 基础hadoop包 4.apache-maven-3.6.3-bin.zip maven压缩包 5.winutils-master.zip 解决windows下spark的问题(可以不用)

2021-01-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人