升职佳兴-CSDN博客

原创重启 Docker 导致 VMware 虚拟机断网：一次完整的故障排查记录

摘要：在一次 Docker Harbor 部署实验中，执行 systemctl restart docker 后虚拟机断网。排查发现 VMware NAT 服务因 Docker 重建 iptables 规则而失效，导致虚拟网卡链路中断。解决方案是重启 Windows 宿主机的 VMware NAT 和 DHCP 服务，网络立即恢复。根本原因是 Docker 和 VMware 对 iptables 规则的竞争使用。建议：重启 Docker 前持续 ping 网关监控连接，固定 docker0 网段

2026-04-14 19:46:03 381

原创 0 基础吃透 Git（Windows 版）｜保姆级实操笔记，踩过的坑全给你避了

本文是一份面向Windows用户的Git入门教程摘要，主要内容包括： Git简介：解释了版本控制的重要性，对比了手动备份与Git管理的差异。 Windows环境安装：详细说明了Git下载安装步骤及验证方法。配置指南：包括用户信息设置、VS Code编辑器配置及常见问题解决方案。仓库创建：演示了Windows下创建Git仓库的具体命令和注意事项。 Git工作流程：简要介绍了Git的三层结构（工作区、暂存区、版本库）。特别针对Windows用户提供了与Mac/Linux命令的对应关系（如dir替代ls），

2026-04-13 09:13:35 522

原创 Linux 深度解析：为什么它是开发者和大数据工程师的必备技能

本文深度对比了三大操作系统（Linux、Windows、macOS）的核心优势，着重分析了Linux在开发者群体中的不可替代性。从开源自由、资源占用、定制化、稳定性等方面论证了Linux作为生产力工具的优势，特别指出其环境一致性、强大命令行和包管理等特点。文章揭示了系统稳定性差异的底层原因，澄清了关于日志写入的常见误解，并强调Linux卓越的内存管理机制。最后指出大数据学生必须掌握Linux，因为整个大数据生态都原生构建在Linux之上。掌握Linux不仅是大数据行业的入门门槛，更是提升工作效率的关键。

2026-04-13 09:10:25 238

原创求职避坑指南：数据分析岗位的那些“黑话”你听懂了几句？

数据埋点是指在 App、网页、小程序等产品流程中植入采集逻辑，用来记录用户在什么时间、什么页面、做了什么动作。它可以看作数据分析的上游输入，是后续报表、分析和实验评估的基础。

2026-04-08 15:09:09 314

原创告别套娃式子查询：SQL WITH 语句（CTE）深度实战指南

SQL WITH/CTE 笔记摘要 WITH子句（CTE）是公用表表达式，用于给子查询结果命名以便主查询引用。它比嵌套子查询更清晰，特别适合需要多次引用中间结果的场景。基本语法包括单个CTE和多个CTE（用逗号分隔，后续CTE可引用前面的）。课程通过两个案例演示CTE的优势：1）找出薪资高于平均的员工（简单案例）；2）找出销售额高于平均的门店（更复杂案例）。后者尤其体现CTE的价值，避免了重复子查询和深层嵌套。MySQL中需注意CAST类型转换语法差异（如AS SIGNED而非AS int）。CTE使复杂查

2026-04-08 15:06:52 658

原创 SQL 进阶4：查询从未下单的用户与 NOT EXISTS 完整解析

从users表中找出那些在orders表里完全没有匹配记录的用户。和NOT EXISTS都能正确解决这类“查不存在”的问题。NOT EXISTS的语义通常更直接，因为它表达的就是“另一张表里不存在匹配行”。性能不能脱离数据库版本和索引讨论，上是否有索引，比单纯换写法更重要。NOT IN在子查询结果可能出现NULL时有明显陷阱，实际工作中要谨慎使用。LEFT JOIN是“先拼表再筛空”，NOT EXISTS是“逐行检查是否存在”，而生产环境里真正决定性能的往往是索引和执行计划。

2026-04-06 19:21:38 672

原创 Excel：VLOOKUP 学习笔记 · 完整版

本文是VLOOKUP函数的完整学习指南，适合Excel数据分析初学者和面试准备者。文章详细介绍了VLOOKUP的核心功能、标准语法、参数详解（查找值、数据表范围、返回列序数和匹配条件），重点讲解了精确匹配与近似匹配的区别、首列原则、绝对引用的重要性以及IFERROR容错处理。同时总结了常见错误类型及解决方法，并提供了跨工作表/工作簿查询的实际应用场景。最后以"3-4-2-0规则"帮助记忆核心要点，强调精确匹配、数据格式统一和错误处理等关键实践技巧。

2026-04-06 19:19:58 647

原创 SQL 进阶3：连续登录问题与 ROW_NUMBER 差值法完整解析

本文详细解析了如何使用 ROW_NUMBER 差值法解决用户连续登录天数问题。通过数学变换将连续日期转换为相同标记，差值法能有效识别连续区间。文章从建表开始，逐步拆解SQL实现步骤：首先生成用户登录序号，然后计算"日期-序号"差值作为分组标记，统计每段连续天数，最后获取用户最长连续天数。同时解释了常见的only_full_group_by错误原因，即在GROUP BY查询中SELECT只能包含分组列或聚合列。该方法适用于各种连续区间分析场景，如连续消费、股价波动等。

2026-04-05 14:23:25 395

原创 C盘爆满自救：3步无损迁移应用数据到E盘（含回滚）

本文介绍了使用Windows目录链接(Junction)技术将C盘应用数据迁移到其他磁盘的完整方案。该方案通过创建虚拟指针实现无缝迁移，不影响应用使用，支持自动更新。文章详细讲解了Chrome浏览器和Electron应用的迁移步骤，包括关闭进程、复制数据、创建链接和验证结果等关键操作，并提供了批处理脚本简化流程。相比直接修改设置或参数，这种目录链接方法更加彻底可靠，能有效解决C盘空间不足问题，同时保留完整的应用功能和数据。

2026-04-05 11:45:12 408

原创 SQL 进阶2：每个部门薪资排名前 2 的员工查询，窗口函数与 DENSE_RANK

本文介绍了如何使用窗口函数DENSE_RANK()查询每个部门薪资排名前2的员工。关键点包括：1)通过PARTITION BY按部门分组；2)使用ORDER BY对薪资降序排序；3)用DENSE_RANK()处理并列情况；4)外层查询筛选排名≤2的记录。文章还分析了常见错误（如忘记子查询别名）和不同排名函数的区别（ROW_NUMBER、RANK与DENSE_RANK），特别强调DENSE_RANK()能确保并列时都保留的特性。

2026-04-04 19:17:59 537

原创用AiPy Pro自动化办公，我一天的工作量现在只要10分钟！

AiPy Pro智能办公助手：10分钟完成全天工作量摘要：数据分析师分享使用AiPy Pro实现办公自动化的真实体验。这款AI工具能用自然语言指令自动处理Excel、PDF、Word等文档，将原本耗时3-4小时的日报处理缩短至30分钟，100份PDF合同处理从8小时降至15分钟。核心优势包括：大白话交互，零技术门槛多功能集成，支持文档处理、股票分析等效率提升85%以上，错误率从5%降至0.1% 批量处理能力强大，释放时间用于创造性工作专属邀请码p5uY可获免费额度，官网aipyaipy.com即刻

2026-04-04 09:06:27 388

原创 SQL 进阶1：如何正确统计高于公司平均薪资的部门？（从 GROUP BY 到窗口函数）

本文解析了SQL部门薪资分析问题的核心解法，重点分析了正确使用聚合函数的方法。文章首先通过测试数据展示部门薪资分布，然后详细拆解解题思路的三层含义：计算部门平均薪资、全公司平均薪资以及两者的动态对比。特别强调了初学者常见错误——对部门平均再取平均的数学谬误，通过极端案例演示了这种方法的危害性。正确解法采用GROUP BY + HAVING + 子查询方案，并解释了WHERE与HAVING的本质区别。最后深入剖析了AVG函数的数学原理，包括其对NULL值的处理方式。全文150字，涵盖SQL聚合查询的关键知识点

2026-04-03 18:57:33 316

原创 VLOOKUP 正式“下岗”？学会 XLOOKUP 这 9 个神操作，表格效率提升 10 倍！

摘要：Excel XLOOKUP函数全面指南 XLOOKUP是Excel 2019推出的现代查找函数，可替代VLOOKUP/HLOOKUP。它支持竖向/横向查找、反向查找、批量返回和多条件查找等场景，语法更直观。本文详解9个实用案例：基础竖向查找横向查找反向查找（返回左侧列）整行查找（返回多列）整列查找（批量查询）自定义错误提示多条件查找近似匹配倒序查找相比VLOOKUP，XLOOKUP优势明显：不受返回列位置限制、默认精确匹配、支持动态数组、内置错误处理。能显著简化公式结构。

2026-03-16 16:15:23 681

原创 Excel 学习笔记整理：常用操作、数据清洗与公式应用实战

本文整理了Excel数据处理的高频操作技巧，涵盖工作表复制、合并单元格清洗、文本拆分、跨表匹配等核心场景。主要内容包括：1）通过Ctrl+拖动快速复制工作表；2）取消合并单元格后批量填充空白值的定位技巧；3）使用LEFT/MID函数拆分组合文本；4）VLOOKUP实现跨表数据匹配的标准流程。文章基于实际业务场景整理，配套练习文件和完整笔记已归档至GitHub仓库（https://github.com/moyan726/Excel-Learning-Vault），适合作为Excel数据处理的操作手册查阅使用。

2026-03-14 17:51:25 956

原创 Docker 安装踩坑记录：结合 K8s 环境准备深入理解每一步为什么要这样做

Docker 安装与 Kubernetes 环境准备要点本文总结了在 OpenEuler 系统上部署 Docker 和 Kubernetes 环境的关键步骤与原理：环境初始化：必须关闭防火墙、SELinux 和 Swap，以避免 iptables 规则冲突、权限限制和内存调度问题，确保容器网络和性能稳定。软件源配置：使用阿里云镜像源加速下载，通过 yum-config-manager 工具自动添加 Docker CE 源，并解析了 .repo 文件各参数的作用。 Docker 安装等等

2026-03-13 21:42:22 486

原创 Docker 安装、镜像管理与 Dockerfile 构建实战（openEuler 版）

本文是一篇Docker安装与基础操作的实践教程，主要介绍了在openEuler系统上部署Docker环境的完整流程。内容包括系统初始化配置（网络、主机名）、安全设置（关闭防火墙/Swap/SELinux）、Docker安装步骤（添加仓库、安装组件、启动服务）以及镜像加速器配置。教程还演示了基本的Docker镜像操作，如拉取、查看、导出/导入镜像等。文章强调实操性，对命令原理未做深入解释，但预告将在后续文章中详细解析各步骤的技术细节。通过本教程，读者可以快速搭建可用的Docker环境并掌握基础镜像管理操作。

2026-03-13 21:39:22 451

原创【虚拟化与容器技术】第1章容器世界 —— 学习笔记

本文系统梳理了虚拟化与容器技术的核心概念与区别。虚拟化通过Hypervisor实现硬件级资源隔离，而容器（如Docker）利用Namespace和Cgroups实现进程级隔离，共享宿主机内核。相比虚拟机，容器更轻量、启动更快，但不含独立操作系统内核。两者各有优势，常配合使用：虚拟机提供强隔离，容器实现高效部署。理解这些基础概念对掌握云原生技术至关重要。

2026-03-13 15:08:08 379

原创 Hadoop 集群虚拟机克隆后如何完成二次改造：IP、主机名、SSH免密、Hadoop/ZooKeeper/Hive/HBase 配置修改与历史数据清理实战

完整记录了一次 Hadoop 三节点集群虚拟机克隆后的二次改造过程。虽然步骤看起来很多，但其实核心就三件事：**改身份（IP/主机名/SSH）→ 改配置（所有组件指向新节点）→ 清历史（旧状态数据全部清除）**。整个过程中遇到的坑——SSH 自身免密失败、YARN 少注册一个节点、Hive Metastore 端口被 systemd 占用——都是实际操作中非常典型的问题。如果你也在做类似的操作，希望这篇文章能帮你少走弯路。

2026-03-12 15:01:27 250

原创 Hadoop 三节点集群环境变量工程化：从 /etc/profile 迁移到 /etc/profile.d/ 全过程记录

摘要：本文记录了将Hadoop三节点集群环境变量从/etc/profile迁移到/etc/profile.d/目录的过程。原方法将所有变量堆砌在单个文件中导致维护困难，迁移后按组件拆分（如java.sh、hadoop.sh），并添加PATH防重复机制。操作步骤包括备份原文件、创建工具脚本、编写组件专属配置，最终实现环境变量管理的模块化、可维护性和多节点一致性。迁移后验证各组件功能正常，解决了原方案的臃肿、重复追加PATH等问题。

2026-03-11 08:35:43 452 1

原创 CentOS 9 下 HBase 2.4.9 分布式集群安装与配置实战

本文详细记录了在CentOS 9系统上部署HBase 2.4.9高可用集群的全过程。基于已运行的Hadoop 3.x和Zookeeper 3.7.0集群，在三节点（hadoop1为主Master，hadoop2为备用Master+RegionServer，hadoop3为RegionServer）上完成部署。关键步骤包括：下载解压安装包、配置环境变量、修改核心配置文件（hbase-env.sh、hbase-site.xml、regionservers和backup-masters），并特别强调了配置检查要点

2026-03-11 08:29:26 531

原创告别 nohup：Hive Metastore 交给 systemd 托管的完整步骤

Hive Metastore 迁移到 systemd 托管本文记录了将 Hive Metastore 从 nohup 手工启动迁移到 systemd 托管的完整过程。nohup 方式存在进程崩溃无通知、重启需手动恢复、日志管理混乱等问题。迁移后通过 systemd 可实现开机自启、崩溃自动恢复、标准化日志管理等优势。核心步骤包括：停止现有 nohup 进程创建 systemd 服务文件（需特别注意环境变量配置）加载并启用服务验证通过服务状态、端口监听、日志检查三个维度确认，推荐进行完整重启测试。

2026-03-11 08:23:25 880

原创 Windows 右键新建 Markdown（.md）并默认用 Typora 打开：完整排查与修复指南

本文详细介绍了如何在Windows系统中实现右键新建Markdown文件并默认用Typora打开的操作方法。主要通过修改注册表实现：1）检查或创建.md扩展名映射；2）添加ShellNew\NullFile项支持右键新建；3）配置shell\open\command指向Typora路径。文中提供了手动修改步骤和可一键导入的注册表脚本方案，并针对常见问题给出排查建议。操作前建议备份注册表，修改完成后需重启资源管理器或电脑生效。该方法完整解决了新建菜单缺失Markdown选项和默认打开程序不正确两个常见问题。

2026-03-06 10:10:14 429

原创避坑指南：多门课程共用 VMware 时，如何避免网段“打架”

本文记录了一次真实的 VMware 网络排障：同一台电脑同时运行 Hadoop 三节点和 openEuler 时，因为两门课程使用了不同网段（`192.168.121.x` 与 `192.168.116.x`），出现了“修好一边、另一边掉线”的问题。文章按小白可执行思路，先统一 VMnet8 子网与 NAT 网关，再用 `nmtui`/`nmcli` 将 openEuler 迁移到 121 网段，最终实现 Xshell 正常连接、虚拟机互通稳定。全文配有截图、命令和验收清单，并给出后续新增虚拟机的通用避坑流

2026-03-04 16:30:30 716 2

原创 SQL 窗口函数入门教程基础篇

本文是SQL窗口函数基础教程，系统讲解窗口函数的核心概念与常用语法。主要内容包括：窗口函数与GROUP BY的本质区别，OVER、PARTITION BY、ORDER BY语法详解，排名函数（ROW_NUMBER/RANK/DENSE_RANK）和位移函数（LEAD/LAG）的使用方法。教程配有完整案例和练习数据，涵盖分组取Top N、移动平均、累计求和等典型应用场景。适合有SQL基础的学习者掌握窗口函数核心用法，为SQL面试和数据分析工作打下坚实基础。

2026-02-16 14:38:35 896

原创 MySQL从基础到入门黑马程序员学习笔记基础篇完结

本文是基于黑马程序员MySQL教程整理的数据库学习笔记，涵盖MySQL基础篇核心知识点。主要内容包括：MySQL概述、SQL语言基础（DDL/DML/DQL/DCL）、常用函数、数据约束、多表查询（内/外连接、子查询）以及事务管理（ACID特性、隔离级别）。笔记详细记录了数据库操作语法，如创建表、增删改查数据等，并配有可视化示意图辅助理解事务并发问题。作者在博客中优化了阅读体验，提供侧边栏导航和图片展示，便于系统学习MySQL从入门到精通的完整知识体系。

2026-01-18 22:57:12 735

原创从 0 到 1：我做了一个提升 AI 对话效率的浏览器插件（架构+实现+发布）

**摘要：为解决AI长对话中查找历史提问的痛点，本文介绍了一款轻量级浏览器插件，支持一键生成悬浮目录快速导航。该插件采用纯原生JavaScript实现，适配Gemini、ChatGPT和Claude等平台，核心功能包括：智能适配：通过适配器模式自动识别不同平台的DOM结构，无需硬编码条件判断动态监听：基于MutationObserver实时追踪流式对话更新，确保目录同步极简架构：200KB超小体积，无第三方框架依赖，包含内容脚本、适配器和UI组件三层结构精准定位

2026-01-17 18:10:03 1199 1

原创美赛备战全攻略：排版工具选择、论文阅读技巧与新手避坑指南

本文针对数学建模竞赛参赛者，对比了Word与LaTeX排版工具的优劣，指出评委更关注论文内容而非排版工具。文章提供决策矩阵帮助团队选择合适工具，强调公式规范、图表标注等关键细节。同时给出备赛建议，包括角色分工、时间管理、选题策略和工具包准备，并分享高效阅读优秀论文的方法。最后提醒常见错误如摘要空洞、图表不清等，强调专业、清晰的排版才是重点。全文旨在帮助参赛者提升论文质量，避免低级错误。

2026-01-17 17:44:07 1149

原创重磅升级V2.0我写了个 Git 提交助手：文件再多也能像“点菜”一样选着提交

本文介绍了Git批量提交脚本的优化改进方案。针对原脚本存在的安全性、健壮性、功能性和用户体验等方面的问题，提出了多项具体修改建议,并进行修改完善。

2025-12-21 22:10:04 1274

原创数据清洗及特征处理----动手学数据分析：实战系列（第四天）

本文摘要：本文系统介绍了数据分析中的数据清洗流程，重点讲解了缺失值、重复值和特征处理的方法。首先通过df.info()和isnull().sum()观察缺失值分布，详细对比了np.nan、None和isnull()的适用场景。随后演示了dropna()删除缺失行、fillna()填充缺失值等操作。在重复值处理部分，讲解了duplicated()检测和drop_duplicates()删除重复数据的方法。最后针对特征处理，介绍了年龄分箱、文本编码等技巧

2025-12-20 21:25:32 978

原创我写了个 Git 提交助手：文件再多也能像“点菜”一样选着提交

Git交互式分批提交助手本开源PowerShell脚本旨在解决Git多文件提交的常见痛点，提供安全可控的交互式提交流程。主要功能包括：自动检测Git仓库状态和分支信息交互式选择待提交文件敏感文件检测和大文件提醒分批提交与推送前二次确认主分支保护机制使用说明：需在Git仓库目录下运行支持自由修改和分发保留原作者信息注意：新建项目文件夹需手动提交

2025-12-19 15:23:53 953

原创动手学数据分析：实战系列（第三天）

sort_index是按标签（行或列名）排序，适合整理表头顺序。是按数据内容排序，适合分析和查找极值、排名等。支持多列排序，优先级从左到右。axis=1控制是对行还是对列排序（0为行，1为列）。ascending控制升序还是降序。实际应用时，按内容排序更常用于数据分析，按索引排序更常用于数据展示和整理。

2025-12-18 18:52:40 699

原创动手学数据分析：实战系列（第二天）

本文介绍了pandas数据分析的基础操作，重点讲解了DataFrame和Series两种核心数据结构的使用方法。主要内容包括：1) 通过字典创建Series和DataFrame的示例；2) 加载csv文件并查看列名；3) 两种访问列数据的方法比较（字典访问法和属性访问法）；4) 数据筛选逻辑，包括布尔条件筛选、多条件组合、索引重置等操作；5) loc和iloc两种数据选取方式的区别与应用场景。文章通过具体代码示例帮助读者掌握pandas数据分析的基础技能。

2025-12-18 09:27:54 1148

原创 Python 词云图入门：从特朗普推文数据到可视化词云

本文以 Kaggle 上的特朗普推文数据为例，带你用 Python 从零生成一张可复现的词云图。我们先用 Pandas 读取 CSV，并通过缺失值检查确认核心分析列为 `text`；随后将所有推文合并为长文本，结合 `wordcloud.STOPWORDS` 与自定义停用词表，过滤链接碎片与高频噪声词，提升词云信息密度。接着导入头像轮廓图片作为 mask 掩码，配合红蓝渐变色映射生成具有主题风格的词云可视化，并用 Matplotlib 完成展示。最后进一步提取词频并输出 Top20 高频词并展示。

2025-12-17 08:02:51 1067

空空如也

空空如也