笨蛋少年派-CSDN博客

原创 *Spark简介

Apache Spark 是一款快速、通用、可扩展的大数据分析计算引擎，它支持批量处理、交互式查询、实时流处理、机器学习和图计算等多种场景，它基于内存的分布式计算，减少了磁盘 I/O 开销。

2025-12-26 12:58:22 1019

原创 Shell脚本编程（bash）简述

Shell脚本在大数据集群运维中的基础应用

2025-12-21 16:00:32 772

原创如何看待标签效应？

标签效应指个体被贴上某种标签后，行为会不自觉地与之趋同。其形成源于自我实现预言、身份内化及社会压力，既有积极作用，也可能导致自我限制或认知偏差。应对方法包括：识别并质疑不合理标签，用成长型思维重构负面评价，主动创造积极标签强化良性循环。关键在于，标签不应成为束缚，而应通过尝试与反思，找到真正舒适的自我状态，活出多元可能性。

2025-12-21 11:58:56 706

原创 DataX离线数据同步工具简介

DataX是一款基于Java开发的离线数据同步工具

2025-12-19 20:43:50 1586

原创 Maxwell数据变更捕获工具简介

Maxwell是一款开源的MySQL数据变更捕获工具

2025-12-19 18:11:15 815

原创数据仓库建设体系认知

对数据仓库建设的全流程的进行了粗略地扫盲。包含了各阶段常用工具技术

2025-12-07 18:48:03 700

原创 *Sqoop数据迁移工具简介

Sqoop是Hadoop生态系统中用于结构化数据批量迁移的工具，实现了关系型数据库与Hadoop之间的高效数据传输。

2025-12-05 18:06:48 493

原创如何构建一套目标驱动时间的自我管理方法？

本文探讨了时间管理的本质与实践方法。真正有效的时间管理是让时间持续流向能创造价值的行动，同时保持应对变化的韧性，最终实现目标与生活的和谐统一。

2025-12-01 21:57:04 1042

原创跨境电商大数据分析系统案例：③建模、分析与暂时收尾

流程存在优化空间，需要系统指导以避免低效探索，实际项目应以解决问题为导向。

2025-11-29 18:52:40 348

原创 *计算机系统认知简介

计算机系统通过分层协作实现功能，内容有点多但仍不全，适合快速建立认知，慢慢消化，后续补充。

2025-11-28 20:49:01 1386

原创 git本地版本控制简介

本文介绍了Git本地版本控制的基础知识与应用场景

2025-11-27 17:58:44 1098

原创跨境电商大数据分析系统案例：②数据集与预处理

本文介绍了电商交易数据的Spark预处理流程

2025-11-26 20:44:07 348

Matplotlib是Python中最常用的数据可视化库。本教程介绍了两种绘图方式：Pyplot快捷方式和面向对象(OOP)方式。Pyplot方式通过plt.plot()、plt.scatter()等函数快速绘制折线图、散点图、柱状图和饼图；OOP方式则通过创建Figure和Axes对象实现更灵活的绘图控制，特别适合多子图场景。教程还包含中文显示设置、图表样式调整等实用技巧，并提供了Pyplot与OOP方式的对照表，帮助用户根据需求选择合适的方法进行数据可视化。

2025-11-24 18:26:45 387

原创并行和并发

并发与并行是计算机处理多任务的两个核心概念。并发指单核环境下通过任务切换共享资源（如多线程交替执行），目标是提高资源利用率；并行则是多核/多服务器环境下任务真正同步执行（如分布式计算），旨在提升处理速度。

2025-11-13 20:50:25 224

原创 Linux文件系统简介

Linux文件系统采用"一切皆文件"的设计理念，将硬件设备、进程信息等抽象为文件对象，通过统一的文件描述符进行管理。系统目录结构层次分明，包含/bin、/etc、/home等标准目录，各司其职。支持Ext4、XFS等多种文件系统类型，其中Ext4最为常用。文件读取流程展示了从用户命令到内核处理的完整过程，涉及fork、exec、open等系统调用，最终通过终端驱动完成显示。这种设计实现了资源管理的统一性和高效性。

2025-11-08 13:31:59 867

原创 *HQL语法简介

本文介绍了Hive的数据类型、DDL、DML、DQL语法

2025-11-01 21:16:18 680

原创 *清理磁盘空间

使用apt包管理器安装软件时，会在/var/cache/apt/archives目录下缓存安装包。

2025-10-30 20:26:05 244

原创关系型数据库、非关系型数据库、结构化数据、半结构化数据、非结构化数据、OLAP、OLTP的关系和区分

数据形态分为结构化（如数据库表）、半结构化（如JSON）和非结构化数据（如图片）。数据库类型包括关系型（如MySQL）和非关系型（如MongoDB），分别用于结构化和非结构化数据存储。数据处理类型分为OLTP（实时事务处理）和OLAP（批量分析），前者依赖关系型数据库处理结构化数据，后者常用非关系型数据库处理半结构化/非结构化数据，以满足不同业务场景需求。

2025-10-29 19:10:14 426

原创 Hive安装部署

本文详细介绍了Hive Metastore的三种部署模式（内嵌、本地、远程）及其特点，重点讲解远程模式的生产环境部署流程。内容包括：1）环境准备要求；2）Hadoop集群的HDFS权限和YARN资源配置；3）MySQL安装与JDBC驱动配置；4）Hive的安装、环境变量配置及核心参数设置；5）元数据库初始化与Hive服务启动验证步骤，涵盖CLI和Beeline两种客户端使用方式。

2025-10-28 21:21:09 674

原创使用hdfs命令报错：Unknown command：dfs（环境变量正确）

系统执行which hdfs未找到HADOOP_HOME路径下的命令，可能是由于其他软件的同名命令优先匹配。解决方法：1)编辑/etc/profile或~/.bashrc文件；2)确保HADOOP_HOME/bin位于PATH最前；3)执行source /etc/profile重新加载；4)验证which hdfs输出应为Hadoop安装路径。若仍无效，可使用绝对路径或排查其他原因。该操作强制系统优先识别Hadoop的hdfs命令。

2025-10-28 20:34:08 346

原创 Hive数据仓库工具简介

Hive是一款基于Hadoop的开源数据仓库工具，为熟悉SQL的用户提供了一种简单、高效的方式来处理和分析HDFS上存储的大规模结构化/半结构化数据。

2025-10-27 19:13:59 1102

原创 *Python基础常用语法

本文系统介绍了Python编程基础要点

2025-10-26 19:08:57 745

原创 Python概述

Python是一种跨平台、解释型、面向对象的高级编程语言，强调代码可读性和简洁性。作为大数据工具的"胶水语言"，Python能整合各环节工具形成连贯接口。其解释器CPython逐行翻译执行代码，虽灵活但效率较低。Python3已完全取代Python2，解决了历史遗留问题。开发工具PyCharm通过自动化辅助和集成化工具链，显著提升开发效率，社区版和专业版可满足不同需求。Python广泛应用于Web开发、数据分析、AI等领域，是当前最受欢迎的编程语言之一。

2025-10-25 13:29:39 455

原创 Data Warehouse数据仓库简介

数据仓库是企业用于统一存储、整合数据并支持决策分析的专用平台，解决了传统业务系统数据分散、口径混乱、分析受限等问题。其核心特征包括面向主题、集成性、相对稳定和反映历史。与数据库不同，数据仓库专注于复杂分析而非实时业务操作。分层架构（如三层或四层）是数据仓库设计的关键，通过解耦、复用和问题追溯提高效率。数据处理流程可选择ETL（外部转换）或ELT（内部转换），现代企业常采用混合模式以适应不同数据类型和业务需求。数据仓库已成为企业数据治理和分析的核心基础设施。

2025-10-24 20:00:06 637

原创 Hadoop High Availability 高可用简介

Hadoop高可用架构(HA)通过主备节点和ZooKeeper实现故障自动转移。HDFS HA采用Active/Standby NameNode架构，通过JournalNode同步元数据，ZKFC监控节点状态并处理故障切换。YARN HA类似，使用多个ResourceManager，通过ZooKeeper选举主节点并持久化集群状态。两种方案都实现了无缝故障转移，确保关键组件无单点故障，保障集群持续可用性。

2025-10-23 20:51:05 805

原创 YARN资源协调简介

YARN是Hadoop2.0引入的资源管理和任务调度平台，解决了Hadoop1.0资源管理与计算框架强耦合的问题。其核心组件包括全局管理的ResourceManager、节点代理NodeManager、应用专属的ApplicationMaster和资源封装单位Container。工作流程以MapReduce为例：客户端提交程序后，ResourceManager分配初始Container启动ApplicationMaster，后者申请资源并协调NodeManager启动任务容器，监控任务执行直至完成释放资源。

2025-10-23 18:59:07 685

C Primer Plus 个人笔记

空空如也