自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

大数据、数据仓库、数据治理、数据开发、数据库等相关数据方面经验分享~

在这个信息爆炸的时代,数据已成为企业最宝贵的资产之一。然而,如何有效地管理和利用这些海量的数据资源,成为了一个亟待解决的问题。 本博客,旨在深入探讨大数据治理的各个方面,比如 数据仓库建设与优化、数据治理框架与策略、数据开发与ETL流程、大数据生态圈组件

  • 博客(101)
  • 资源 (5)
  • 收藏
  • 关注

原创 从 “夯” 到 “拉完了”:MySQL 执行计划全字段深度解析,SQL 性能提升实战

本文介绍了MySQL SQL优化的关键步骤——如何通过执行计划寻找优化点。首先需要准备MySQL数据库环境(5.7版本)、示例数据表和连接工具。重点讲解了执行计划的使用方法,通过在SQL前添加EXPLAIN关键字获取执行计划,并详细解析了执行计划中的关键字段:id(查询顺序)和select_type(查询类型)。文章还创新性地使用网络流行语"夯>顶级>人上人>NPC>拉完了"作为性能评级标准,帮助读者理解不同类型查询的性能差异。通过分析执行计划,开发者可以提前发现

2025-12-26 10:23:02 1284

原创 写自媒体文章到底用什么软件

摘要: 本文分享了技术自媒体文章写作工具的选择经验。作者尝试过CSDN博客、本地软件+图床等方案,最终推荐飞书云文档+浏览器插件的组合方案。该方案满足多元素支持(思维导图、架构图、表格等)、云本地双存储、Markdown格式、免费使用等核心需求,能解决95%的写作问题。飞书提供15GB免费空间,内置丰富模板和元素,配合"Cloud Document Converter"插件可轻松导出Markdown格式,实现多平台内容迁移。虽然存在思维导图样式不够炫酷等小缺点,但整体体验优秀,是当前最佳

2025-12-26 10:22:32 916

原创 数据治理项目实战系列6-数据治理架构设计实战,流程 + 工具双架构拆解

摘要: 本文聚焦数据治理实施阶段的数据架构设计,强调架构意识的重要性并提出实用建议。文章指出架构设计应根据项目投入适度规划,避免过度复杂化,建议采用逻辑架构与模块化设计相结合的方式提升可读性。重点介绍了数据治理流程架构(包括概要设计和详细设计)和治理工具架构(涵盖自研平台与开源组件),最终输出治理流程和工具架构文档。关键词包括#大数据 #数据治理 #架构设计等。

2025-12-15 16:36:21 756

原创 数据治理项目实战系列5-避坑指南!数据治理调研 6 大核心动作 + 全套输出模板

摘要: 本文介绍了数据治理项目实施阶段的数据调研工作流程。主要内容包括:制定调研方案,明确目的、对象和方法;设计三类调研表(系统信息、数据表、信息项)收集应用数据;整理关键问题清单用于会议沟通;组织调研会议并记录结果;编写单系统调研报告和项目汇总报告。调研核心目标是评估数据治理价值和难度,为后续数据仓库建设奠定基础。最终输出6类文档,包括调研方案、反馈表、调研报告等,形成完整的数据资产调研成果。 关键词: #大数据 #数据治理 #项目实战 #数据调研 #应用调研

2025-12-15 16:35:58 1005

原创 数据治理项目实战系列4-错过合同项分析,数据治理或将功亏一篑!

摘要: 本文详细介绍了数据治理项目实施阶段的合同项分析要点。重点强调合同内容必须严格遵循,包括服务范围、要求及佐证材料等关键条款。实施过程中需明确角色分工(数据治理主导、项目经理协调、架构师技术支持),通过沟通确认成效目标(治理结果、共享目录、可视化展示)和数据来源。制定详细的研发计划并形成规范输出物(合同分析、数据来源表、目标确认、研发计划)是确保项目顺利推进的关键。

2025-12-02 10:48:06 596

原创 数据治理项目实战系列3-平台部署那些数据治理人员不得不知的关键细节

本文介绍项目进入实施阶段的时候,需要了解的事,平台部署实施

2025-12-02 10:47:26 1182

原创 数据治理项目实战系列2-数据治理项目立项大揭秘:这些规划竟如此关键!

摘要: 本文以数据治理人员视角,介绍项目立项阶段的关键评审规划工作。重点阐述了架构师在服务器配置、网络拓扑、平台组件部署及数据库高可用方案等核心架构设计内容,强调前期规划对项目实施的决定性影响。同时概述了项目经理在跨角色协调中的职责,并列出合同文档、技术架构图等关键交付物,为后续数据治理实施奠定基础。 关键词: #立项评审 #架构设计 #资源规划 #数据治理 #项目交付

2025-11-27 16:18:59 905

原创 数据治理项目实战系列1-揭秘教育数字治理实战:亿级数据量下的区校协同破局之路

本文介绍项目基本信息,涉及项目特点、生命周期、人员组成等等

2025-11-27 10:55:38 840

原创 由文件数据开发乱象感悟、数据应用开发怎么才能有序移交

由文件数据开发乱象感悟、数据应用开发怎么才能有序移交

2025-11-19 11:41:11 634

原创 Cursor 生成 SQL 设计执行流程图

摘要:Cursor结合AI技术可自动生成SQL开发流程图,大幅提升数据开发效率。通过安装Cursor并配置SQL脚本,开发者只需输入特定Promt指令,即可快速将SQL代码转换为Mermaid语法流程图,省去手动绘制设计图的繁琐过程。该方法能清晰展现简单到复杂的SQL处理流程,使开发文档制作时间从2小时缩短至几分钟,有效解决"写文档痛苦综合征"问题。但需注意,AI工具虽简化呈现环节,前期的模型设计和脚本开发工作仍需人工完成。(149字)

2025-11-19 11:40:30 565

原创 Cursor增加使用次数

摘要: Cursor近期调整为按Token计费,导致用户使用次数受限。为增加使用次数,建议切换至更具性价比的Claude-4.5-Haiku模型,其成本仅为Sonnet的三分之一且性能相近。在Cursor设置中启用该模型即可显著提升使用效率,适合追求性价比的开发者。这一调整虽限制了长文本生成,但优化了简单任务的资源消耗。 关键词: #Cursor #人工智能 #开发工具 #Claude-4.5-Haiku #节省Token

2025-11-05 09:38:19 1613

原创 微信公众号图片模糊问题解决办法

摘要: 针对微信公众号上传图片变模糊的问题,研究发现是图片分辨率超过600万像素导致的。通过Windows自带的图片工具(右键图片→调整图像大小),只需将图片宽高乘积控制在600万像素内(如宽度设为2600px)并保存为PNG格式,就能显著提升公众号图片清晰度。该方法无需安装额外软件,操作简单高效,经实测效果明显改善。

2025-11-05 09:37:25 1529

原创 Github+Jsdelivr+PicGo+Typora实现Markdown文章多平台复制

本文介绍了利用Github+Jsdelivr+PicGo+Typora实现Markdown图片多平台复用的方案。首先在Github创建公开仓库存储图片,通过Jsdelivr的CDN加速访问;然后配置PicGo实现图片自动上传至Github仓库;最后在Typora中集成PicGo,实现编辑器内一键上传图片。该方案解决了Gitee等国内平台限制图床访问的问题,利用Github的稳定性和Jsdelivr的加速功能,使Markdown文档中的图片可在不同平台间自由复制使用。

2025-10-25 10:43:10 1253

原创 Doris跨数据库查询实战

摘要: 本文介绍了基于Doris实现跨数据库查询的实践经验。针对多源数据查询需求,传统方案存在数据同步繁琐、存储冗余等问题。通过Doris的Catalog功能,直接映射Hive、MySQL等多个数据源,实现跨库关联查询。新架构避免了数据同步任务,减少存储占用和运维成本,同时提升查询效率和一致性。示例SQL展示了跨Hive、MySQL多表关联的便捷性。该方案显著优化了临时数据提取场景的工作流程。

2025-10-25 10:42:35 954

原创 Nacos单节点部署及优势使用实战

摘要: 本文详细介绍了Nacos单节点部署流程及配置动态变更实战。通过搭建Nacos服务(JDK+MySQL环境),实现配置中心功能,解决传统配置修改需重启服务的问题。重点讲解SpringBoot项目集成Nacos配置的方法,借助@RefreshScope注解实现配置动态更新,提升开发运维效率。文章包含环境准备、数据库初始化、服务部署及SpringCloud集成等完整步骤,适用于需要灵活管理配置的场景。 关键词: Nacos、配置中心、动态更新、SpringCloud、微服务

2025-10-25 10:42:05 1298

原创 Doris自定义函数实战

摘要: 本文介绍了Doris数据库中自定义函数(UDF)的实战应用,重点展示了如何将Hive UDF迁移至Doris环境。通过具体案例演示了函数代码编写、包上传、注册及使用全流程,验证了Doris对Hive UDF的兼容性。相比Hadoop生态的复杂部署,Doris单节点即可快速验证UDF功能,为大数据处理提供了更轻量级的解决方案。该实践既保留了UDF的灵活性和复杂性处理能力,又显著降低了技术门槛和资源消耗。

2025-10-21 10:49:22 558

原创 增量自动补数据方案

摘要: 本文介绍了一种基于DolphinScheduler的增量自动补数据方案,适用于数据仓库场景。方案通过MySQL生成日期枚举,结合调度平台循环执行增量任务,实现7天内自动补数功能。系统包含日期生成、任务配置、循环执行等模块,支持参数化配置,无需开发即可实现自动补数。该方案提高了数据运维效率,增强了系统容错能力,特别适合单日数据量适中的增量补数场景。

2025-10-21 10:48:22 877

原创 OLTP应用系统和OLAP分析系统的区别

摘要: OLTP(联机事务处理)系统和OLAP(联机分析处理)系统在企业数据体系中扮演不同角色。OLTP面向高频事务处理,强调实时性、精确性和高并发,采用ER模型保证数据一致性;OLAP侧重历史数据分析,支持多维度聚合查询,采用星型模型提升分析效率。二者在数据特征、用户类型、查询方式等方面存在显著差异,但通过ETL流程形成数据闭环:OLTP产生原始数据,OLAP提供决策支持。这两种系统的设计理念和技术实现差异巨大,分别对应事务处理和分析优化的不同需求。(149字) 关键词: OLTP、OLAP、数据仓库、E

2025-10-15 15:40:04 794

原创 跨 4 平台的增量任务有多坑?运维交接时的 3 个救命文档和架构反思

摘要: 本文总结了运维阶段增量任务处理中的成本问题与经验。由于网络架构复杂,跨平台增量任务导致运维工作量成倍增加,需手动重跑多个平台任务。增量数据的及时性要求也提高了补数据的工作量。关键经验包括:优化网络架构设计、采用动态入参机制、建立平台间依赖关系和自动补数方案。文章建议在架构设计阶段充分考虑运维成本,并完善网络架构图、数据流程图和运维手册等文档。(149字) 关键词: 数据治理、增量任务、必要性、成本治理、经验总结、架构总结

2025-10-15 15:39:41 978

原创 用豆包桌面端刷英文网站:对照翻译 + 截图提问 + 摸鱼播客,一篇搞定

摘要: 本文分享了使用豆包桌面应用浏览英文网站(如Listverse)的实用功能体验。主要亮点包括:1)对照翻译功能,可同步显示中英文对照内容;2)截图提问功能,快速解决阅读中的疑问;3)网页播客功能,支持后台收听内容。这些AI工具有效降低了英文阅读门槛,特别适合需要获取国外知识资源的用户。作者认为大模型技术正在简化传统复杂的操作流程,并邀请读者分享更多实用功能。(150字) 关键词: 豆包、AI翻译、截图提问、网页播客、英文阅读辅助

2025-10-09 11:16:07 715

原创 数据接口全量 vs 增量设计:从原理到实战的高效方案指南

摘要: 本文总结了数据接口设计中全量与增量方案的要点,对比了两者的差异并给出实践建议。增量接口设计需关注变更识别、数据表示传输、状态同步等核心问题,通过时间戳或单调ID实现。全量接口适用于数据量小且更新不频繁的场景。文中通过荣誉系统共享和作业系统接入两个案例,展示了时间戳和单调ID在实际应用中的解决方案,为数据接口设计提供参考。 关键词: 增量接口、全量接口、数据同步、接口设计

2025-10-09 11:15:45 908

原创 原来豆包还能这么用?一键总结全文、生成脑图,学习效率拉满

摘要: 本文介绍了豆包桌面应用的两大实用功能:总结全文和生成脑图。通过京东读书的实例演示,展示了豆包如何快速提炼文章核心内容并自动生成思维导图,显著提升阅读和学习效率。文章还说明了功能入口位置和使用方法,并指出人工智能工具正在改变传统学习方式。这些功能特别适合需要快速掌握大量信息的场景,让用户摆脱机械的文本处理工作。

2025-09-28 09:35:44 1197

原创 踩遍坑后发现:10 张图去水印 1 分钟搞定,不用充 VIP 的笨办法超好用

摘要: 本文分享了作者尝试多种批量去除图片水印工具的经验,包括雀酷水印管家、豆包水印工具等,但均因收费限制或效果不佳被弃用。最终回归百度AI大模型,通过多开页面手动粘贴图片的方式实现高效去水印。该方法操作简单,1分钟内可处理10张图片,满足自媒体日常需求。作者强调,解决方案不必追求完美,适合的才是最好的。 关键词: 图片去水印、百度AI、批量处理、实用技巧

2025-09-28 09:35:17 438

原创 PDF转Word别再花钱了!扣子空间免费工具亲测:表格图片完美复制,编辑无压力

摘要: PDF解析难题如今可通过扣子空间轻松解决。以往PDF转Word存在复制困难、工具收费等问题,而使用扣子空间后,只需上传文件并输入提示词,即可自动完成转换并保留格式。实测显示,转换后的Word文档基本复刻了原PDF的文本、表格和图片等内容,仅需微调即可完美匹配。大模型技术的应用让PDF解析更高效便捷,为普通用户提供了免费优质的工具选择。

2025-09-22 07:00:00 500

原创 实测 3 个 AI 大模型去水印:百度 AI 完胜,豆包 / 即梦踩坑实录

实测 3 个 AI 大模型去水印:百度 AI 完胜,豆包 / 即梦踩坑实录

2025-09-22 07:00:00 2453

原创 豆包图像4.0模型-解决多图参考问题

豆包图像4.0模型-解决多图参考问题

2025-09-15 07:00:00 1725

原创 即梦AI-智能多帧试用

摘要: 即梦AI推出智能多帧功能,支持一次性生成10帧图像(约50秒视频),显著提升短视频制作效率。该功能解决了传统视频制作中图片一致性差、连续性不足的痛点,尤其适合需要运镜效果的场景。用户需上传连续图片并填写提示词,每5秒视频消耗10积分。目前即梦AI在该领域具有独特优势,生成视频后可结合剪映进行后期剪辑。

2025-09-15 07:00:00 887

原创 MySQL如何进行SQL优化?

SQL优化经验分享:从慢查询到高效执行的实战技巧。文章总结了7个关键优化点:1)子查询改为JOIN可提升60倍性能;2)合理设计索引,关联字段必须建索引;3)多表关联需精心设计,避免复杂计算;4)行列转换先过滤后统计;5)避免ORDER BY RAND();6)实用小技巧如ORDER BY NULL、优化WHERE顺序;7)强调持续优化的重要性。通过执行计划分析和数据监控,小改动可带来显著性能提升,让数据库查询更快更高效。

2025-07-21 08:00:00 371 2

原创 数据库记录物理删除和逻辑删除哪个更合适?

逻辑删除相比物理删除具有显著优势:1. 作为增量数据获取的前置条件,逻辑删除只需对比更新时间,性能远高于物理删除的全量对比;2. 保留历史数据支持历史分析;3. 可通过冷数据归档实现查询优化;4. 物理删除在多数数据库中并不能实际减少存储占用(存在高水位线问题);5. 当前存储成本低廉,逻辑删除能以较小存储代价获得多重收益。权衡利弊,逻辑删除是更优选择。

2025-07-21 08:00:00 1054

原创 Apache DolphinScheduler系列9-批量停止运行中的工作流

Apache DolphinScheduler系列9-批量停止运行中的工作流。

2025-07-07 08:30:00 834

原创 数据接口增全量设计方案总结

每次调用接口时,返回源系统中指定数据集的完整、最新快照。每次调用接口时,只返回自上一次成功获取数据之后发生变更(增、删、改)的那部分数据。原始系统在做表设计的时,按照规范,有 create_time 和update_time,为我们设计增量,天然提供了很好的条件部分表结构`id` varchar(32) COMMENT '主键' ,…………`is_delete` varchar(1) COMMENT '是否删除' ,

2025-07-07 08:30:00 1328

原创 MySQL性能优化:一次让系统飞起来的血泪实战经验

摘要: 本文分享了一次MySQL数据库性能优化的实战经验。通过分析系统性能瓶颈,针对1000万级数据表的慢查询问题,采取了引擎切换(MyISAM到InnoDB)、索引优化(添加关键索引和联合索引)、表结构调整(日期字段类型修正)和分区策略等综合优化手段。同时调整了innodb_buffer_pool_size等关键参数,最终使系统吞吐率提升6倍,关键查询响应时间从3-4秒降至0.3-0.8秒。文章强调数据库优化需要整体考虑引擎、参数、索引、SQL和表结构等因素,并提供了可复用的优化思路和具体SQL示例。

2025-06-30 08:00:00 1257

原创 数据中台该怎么干?

总的来说,数据中台就是把企业的数据资产管理起来,让数据真正为业务服务。但数据中台不一样,它要管数据的整个生命周期——从数据进来到最后被业务用掉,每个环节都得有章法。它本质上是一套完整的规则体系,不是什么高大上的概念,就是把数据这摊子事儿给理清楚、管起来。这里只说实际项目的干法,至于数据中台该用什么平台,用哪些技术模块,市面上有很多,各个公司也有自研的,这里就不展开了。这个阶段最累,各个部门扯皮,业务方说这样,技术方说那样,但这个基础不打牢,后面全是坑。最头疼的是那些"祖传系统",文档没有,字段含义全靠猜。

2025-06-30 08:00:00 464

原创 一条Rule 让Cursor额度暴涨

本文介绍了一种通过配置Rule规则提升Cursor AI工具使用额度的方法。针对付费用户仍感500次快速请求不足的问题,提出无需安装额外软件的解决方案——在Cursor配置中添加特定Rule规则,利用Windows自带Powershell实现单次会话多次调用,理论可将额度提升至12500次。该方法操作简单(仅需复制粘贴规则),有效延长Claude-4模型使用时长,同时解释了其25次/会话的技术原理及注意事项

2025-06-19 07:00:00 1330

原创 MySQL5.7 慢查询SQL语句集合

本文提供了一系列SQL查询语句,用于分析和监控MySQL数据库中的慢查询性能问题

2025-06-19 07:00:00 499

原创 Cursor生成Java的架构设计图

Cursor 助力 Java 架构设计可视化 摘要:Cursor 作为一款智能开发工具,通过 AI 技术简化了 Java 项目的架构设计流程。本文介绍了如何利用 Cursor 生成包含多种视图的架构设计图,包括模块依赖图、系统部署图、数据流程图等 8 种类型。重点说明了 Mermaid 语法规范,特别是颜色对比度要求和文本换行技巧(需使用<br>而非\n)。实现步骤包括:安装配置 Cursor、准备工程代码、安装 Markdown 预览插件,并通过特定 Prompt 生成架构文档。该方法显著提升

2025-06-07 15:58:13 1738

原创 使用Conda管理服务器多版本Python环境的完整指南

本文介绍了使用Conda在服务器上管理多版本Python环境的解决方案。针对不同项目对Python版本的特定需求,Conda通过创建隔离环境实现版本和依赖管理,避免全局冲突。文章详细讲解了从安装Miniconda、创建指定版本环境到激活切换环境的操作步骤,并提供了环境克隆、共享配置等高级技巧。对比Pyenv工具,Conda具有预编译版本和全面环境隔离的优势。最后针对常见问题给出排查建议,帮助开发者实现灵活稳定的多版本Python管理。

2025-06-07 15:57:25 1155

原创 Cursor生成Java的README文件

本文介绍了如何使用人工智能开发工具Cursor自动生成Java项目的README文件。Cursor通过其内置的Chat功能,能够根据用户提供的提示(Prompt)和工程代码,快速生成结构化的README文档。文章详细说明了生成README的背景、前置条件(如Cursor的安装与配置)、生成Prompt的示例,以及如何查看和预览生成的文档。通过这种方式,开发者可以大幅减少编写文档的时间,同时确保文档的完整性和专业性

2025-05-19 14:48:48 1188

原创 Cursor日常配置指南

Cursor是一款AI驱动的代码编辑器,旨在提升开发效率。它具备AI代码补全

2025-05-19 14:48:17 2999

原创 Docker安装Ollama及使用Ollama部署大模型

Docker安装Ollama及使用Ollama部署大模型。

2025-05-03 17:59:24 1976 2

Sublime Text 3.zip

Sublime Text 3.zip

2021-05-05

PBIDesktopSetup_x64.exe

PBIDesktopSetup_x64.exe

2021-04-09

Navicat Premium 15.zip

Navicat Preminm 15 好用的数据库连接客户端,可以连接多中常用数据库,mysql,mongodb等

2021-01-15

scala-intellij-bin-2020.2.5.zip

IntelliJ IDEA scala插件,给网络不好的下载本地直接安装

2021-01-15

windows安装spark2软件包.zip

windows安装spark2软件包 包括: 1.spark-2.3.0-bin-hadoop2.7.tgz spark的压缩包 2.scala-2.11.8.zip scala的压缩包 3.hadoop-2.7.1.tar.gz 基础hadoop包 4.apache-maven-3.6.3-bin.zip maven压缩包 5.winutils-master.zip 解决windows下spark的问题(可以不用)

2021-01-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除