自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(65)
  • 收藏
  • 关注

原创 *Spark简介

Apache Spark 是一款快速、通用、可扩展的大数据分析计算引擎,它支持批量处理、交互式查询、实时流处理、机器学习和图计算等多种场景,它基于内存的分布式计算,减少了磁盘 I/O 开销。

2025-12-26 12:58:22 1011

原创 Shell脚本编程(bash)简述

Shell脚本在大数据集群运维中的基础应用

2025-12-21 16:00:32 770

原创 如何看待标签效应?

标签效应指个体被贴上某种标签后,行为会不自觉地与之趋同。其形成源于自我实现预言、身份内化及社会压力,既有积极作用,也可能导致自我限制或认知偏差。应对方法包括:识别并质疑不合理标签,用成长型思维重构负面评价,主动创造积极标签强化良性循环。关键在于,标签不应成为束缚,而应通过尝试与反思,找到真正舒适的自我状态,活出多元可能性。

2025-12-21 11:58:56 696

原创 DataX离线数据同步工具简介

DataX是一款基于Java开发的离线数据同步工具

2025-12-19 20:43:50 1569

原创 Maxwell数据变更捕获工具简介

Maxwell是一款开源的MySQL数据变更捕获工具

2025-12-19 18:11:15 813

原创 Flume日志数据采集工具简介

Flume介绍和使用

2025-12-16 16:23:35 1070

原创 大数据体系认知

大数据概述

2025-12-14 17:31:29 959

原创 数据仓库建设体系认知

对数据仓库建设的全流程的进行了粗略地扫盲。包含了各阶段常用工具技术

2025-12-07 18:48:03 695

原创 *Sqoop数据迁移工具简介

Sqoop是Hadoop生态系统中用于结构化数据批量迁移的工具,实现了关系型数据库与Hadoop之间的高效数据传输。

2025-12-05 18:06:48 486

原创 Kafka分布式流处理平台简介

Kafka是数据大动脉

2025-12-02 21:26:27 1145

原创 如何构建一套目标驱动时间的自我管理方法?

本文探讨了时间管理的本质与实践方法。真正有效的时间管理是让时间持续流向能创造价值的行动,同时保持应对变化的韧性,最终实现目标与生活的和谐统一。

2025-12-01 21:57:04 1039

原创 跨境电商大数据分析系统案例:③建模、分析与暂时收尾

流程存在优化空间,需要系统指导以避免低效探索,实际项目应以解决问题为导向。

2025-11-29 18:52:40 346

原创 *计算机系统认知简介

计算机系统通过分层协作实现功能,内容有点多但仍不全,适合快速建立认知,慢慢消化,后续补充。

2025-11-28 20:49:01 1381

原创 Spark 集群安装与配置

Spark 集群安装与配置。

2025-11-28 14:03:55 265

原创 git本地版本控制简介

本文介绍了Git本地版本控制的基础知识与应用场景

2025-11-27 17:58:44 1095

原创 跨境电商大数据分析系统案例:②数据集与预处理

本文介绍了电商交易数据的Spark预处理流程

2025-11-26 20:44:07 346

原创 跨境电商大数据分析系统案例:①项目初始化

本文介绍了项目初始化流程。

2025-11-25 21:50:14 677

原创 Matplotlib绘图简介

Matplotlib是Python中最常用的数据可视化库。本教程介绍了两种绘图方式:Pyplot快捷方式和面向对象(OOP)方式。Pyplot方式通过plt.plot()、plt.scatter()等函数快速绘制折线图、散点图、柱状图和饼图;OOP方式则通过创建Figure和Axes对象实现更灵活的绘图控制,特别适合多子图场景。教程还包含中文显示设置、图表样式调整等实用技巧,并提供了Pyplot与OOP方式的对照表,帮助用户根据需求选择合适的方法进行数据可视化。

2025-11-24 18:26:45 385

原创 并行和并发

并发与并行是计算机处理多任务的两个核心概念。并发指单核环境下通过任务切换共享资源(如多线程交替执行),目标是提高资源利用率;并行则是多核/多服务器环境下任务真正同步执行(如分布式计算),旨在提升处理速度。

2025-11-13 20:50:25 218

原创 Linux文件系统简介

Linux文件系统采用"一切皆文件"的设计理念,将硬件设备、进程信息等抽象为文件对象,通过统一的文件描述符进行管理。系统目录结构层次分明,包含/bin、/etc、/home等标准目录,各司其职。支持Ext4、XFS等多种文件系统类型,其中Ext4最为常用。文件读取流程展示了从用户命令到内核处理的完整过程,涉及fork、exec、open等系统调用,最终通过终端驱动完成显示。这种设计实现了资源管理的统一性和高效性。

2025-11-08 13:31:59 866

原创 *HQL语法简介

本文介绍了Hive的数据类型、DDL、DML、DQL语法

2025-11-01 21:16:18 676

原创 *清理磁盘空间

使用apt包管理器安装软件时,会在/var/cache/apt/archives目录下缓存安装包。

2025-10-30 20:26:05 244

原创 关系型数据库、非关系型数据库、结构化数据、半结构化数据、非结构化数据、OLAP、OLTP的关系和区分

数据形态分为结构化(如数据库表)、半结构化(如JSON)和非结构化数据(如图片)。数据库类型包括关系型(如MySQL)和非关系型(如MongoDB),分别用于结构化和非结构化数据存储。数据处理类型分为OLTP(实时事务处理)和OLAP(批量分析),前者依赖关系型数据库处理结构化数据,后者常用非关系型数据库处理半结构化/非结构化数据,以满足不同业务场景需求。

2025-10-29 19:10:14 417

原创 Hive安装部署

本文详细介绍了Hive Metastore的三种部署模式(内嵌、本地、远程)及其特点,重点讲解远程模式的生产环境部署流程。内容包括:1)环境准备要求;2)Hadoop集群的HDFS权限和YARN资源配置;3)MySQL安装与JDBC驱动配置;4)Hive的安装、环境变量配置及核心参数设置;5)元数据库初始化与Hive服务启动验证步骤,涵盖CLI和Beeline两种客户端使用方式。

2025-10-28 21:21:09 667

原创 使用hdfs命令报错:Unknown command:dfs(环境变量正确)

系统执行which hdfs未找到HADOOP_HOME路径下的命令,可能是由于其他软件的同名命令优先匹配。解决方法:1)编辑/etc/profile或~/.bashrc文件;2)确保HADOOP_HOME/bin位于PATH最前;3)执行source /etc/profile重新加载;4)验证which hdfs输出应为Hadoop安装路径。若仍无效,可使用绝对路径或排查其他原因。该操作强制系统优先识别Hadoop的hdfs命令。

2025-10-28 20:34:08 341

原创 Hive数据仓库工具简介

Hive是一款基于Hadoop的开源数据仓库工具,为熟悉SQL的用户提供了一种简单、高效的方式来处理和分析HDFS上存储的大规模结构化/半结构化数据。

2025-10-27 19:13:59 1098

原创 *Python基础常用语法

本文系统介绍了Python编程基础要点

2025-10-26 19:08:57 744

原创 Python概述

Python是一种跨平台、解释型、面向对象的高级编程语言,强调代码可读性和简洁性。作为大数据工具的"胶水语言",Python能整合各环节工具形成连贯接口。其解释器CPython逐行翻译执行代码,虽灵活但效率较低。Python3已完全取代Python2,解决了历史遗留问题。开发工具PyCharm通过自动化辅助和集成化工具链,显著提升开发效率,社区版和专业版可满足不同需求。Python广泛应用于Web开发、数据分析、AI等领域,是当前最受欢迎的编程语言之一。

2025-10-25 13:29:39 454

原创 Data Warehouse数据仓库简介

数据仓库是企业用于统一存储、整合数据并支持决策分析的专用平台,解决了传统业务系统数据分散、口径混乱、分析受限等问题。其核心特征包括面向主题、集成性、相对稳定和反映历史。与数据库不同,数据仓库专注于复杂分析而非实时业务操作。分层架构(如三层或四层)是数据仓库设计的关键,通过解耦、复用和问题追溯提高效率。数据处理流程可选择ETL(外部转换)或ELT(内部转换),现代企业常采用混合模式以适应不同数据类型和业务需求。数据仓库已成为企业数据治理和分析的核心基础设施。

2025-10-24 20:00:06 633

原创 Hadoop High Availability 高可用简介

Hadoop高可用架构(HA)通过主备节点和ZooKeeper实现故障自动转移。HDFS HA采用Active/Standby NameNode架构,通过JournalNode同步元数据,ZKFC监控节点状态并处理故障切换。YARN HA类似,使用多个ResourceManager,通过ZooKeeper选举主节点并持久化集群状态。两种方案都实现了无缝故障转移,确保关键组件无单点故障,保障集群持续可用性。

2025-10-23 20:51:05 803

原创 YARN资源协调简介

YARN是Hadoop2.0引入的资源管理和任务调度平台,解决了Hadoop1.0资源管理与计算框架强耦合的问题。其核心组件包括全局管理的ResourceManager、节点代理NodeManager、应用专属的ApplicationMaster和资源封装单位Container。工作流程以MapReduce为例:客户端提交程序后,ResourceManager分配初始Container启动ApplicationMaster,后者申请资源并协调NodeManager启动任务容器,监控任务执行直至完成释放资源。

2025-10-23 18:59:07 682

原创 *ZooKeeper分布式协调服务简介

ZooKeeper是一个分布式协调服务,通过树形结构的znode节点(持久/临时、带序号)实现数据一致性。集群包含Leader(处理事务请求)、Follower(转发事务)和Observer(提升读性能)三种角色。其监听机制支持一次性异步事件通知。常用场景包括配置管理、集群选举和分布式锁(通过顺序节点实现公平竞争)。操作命令包括create/get/set/delete等,支持节点监听。ZooKeeper通过全局事务ID和角色分工保证分布式环境下的数据一致性。

2025-10-20 16:36:29 1105

原创 ZooKeeper集群安装配置

本文详细介绍了ZooKeeper集群环境的重新安装配置流程。

2025-10-19 18:34:19 798

原创 硬链接和软链接的区别

Linux中,硬链接和软链接的主要区别在于:硬链接与原文件共用同一个inode,直接指向原数据,删除原文件不影响硬链接访问;软链接则是独立文件,仅存储原文件路径,原文件删除后软链接失效。

2025-10-15 09:38:54 219

原创 Ubantu安装MySQL8.0

若显示active (running),则表示服务已正常运行。0101Y#密码策略解释0(LOW):仅密码长度至少 8 位,无复杂度要求(可以纯数字、纯字母)。1(MEDIUM,推荐):密码长度至少 8 位,且必须包含 数字、大写字母、小写字母、特殊符号(如!@#$ 等) 中的至少 3 种。2(STRONG):在 MEDIUM 基础上,还需满足密码不能包含常见词典词(如 password、123456 等),限制更严格。

2025-10-14 14:04:31 1055

原创 将MapReduce程序打成JAR包并在Linux虚拟机的上运行

本文介绍了将Maven项目打包并部署到Linux虚拟机的完整流程:1)在pom.xml中配置maven-compiler-plugin和maven-shade-plugin插件以生成可执行JAR;2)通过IDEA的Maven面板执行package命令生成JAR包;3)区分使用包含依赖的胖JAR或原始JAR的场景;4)在Linux环境下通过hadoop jar命令运行MapReduce程序,需确保Hadoop集群正常启动并正确指定输入/输出路径。文中提供了详细的插件配置说明和作业提交命令示例。

2025-10-13 23:18:06 402

原创 数据与大数据

所谓的实时是从数据产生到应用的时间间隔为秒级(spark streaming)、毫秒级(storm flink)指用适当的统计方法对收集来的数据分析,将它们以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的功能。例如:企业高层希望通过市场分析和研究,把握当前产品的市场动向,从而制定合理的产品研发和销售计划;数据可以是连续的值,比如声音、图像,称为模拟数据;是事实或观察的结果,是对客观事物的逻辑归纳,是用于表示客观事物的未经加工的原始素材。分析实时产生的数据、当下的数据,面向当下分析。

2025-10-12 14:54:05 920

原创 操作Hadoop时,非必要别用sudo

摘要:使用sudo执行Hadoop命令时需谨慎,因为root用户与普通用户的环境变量默认隔离。Hadoop关键变量(如HADOOP_HOME、HADOOP_CONF_DIR)在sudo后可能丢失,导致hdfs命令无法定位NameNode和配置文件。普通用户在~/.bashrc中配置的变量对root无效,sudo默认不继承这些自定义变量。建议直接使用已配置环境变量的普通用户执行Hadoop操作,避免因环境变量隔离导致命令失效。

2025-10-12 01:53:13 611

原创 MapReduce计算简介

MapReduce是一种分布式计算框架,采用"分而治之"思想,将任务拆分为Map和Reduce两个阶段。Map阶段并行处理数据分片,输出中间键值对;Shuffle阶段按Key分区排序;Reduce阶段聚合结果。典型案例WordCount展示了文本单词统计的完整流程:Map拆分单词标记次数,Shuffle按单词分组,Reduce汇总相同单词的出现次数。该框架通过抽象模型隐藏底层细节,开发者只需关注业务逻辑实现。

2025-10-10 23:09:56 531

原创 HDFS分布式文件系统简介

本文系统介绍了Hadoop分布式文件系统HDFS的核心机制。重点解析了HDFS的读写流程:写数据采用管道传输和双重队列确保可靠性,读数据基于就近原则选择DataNode。详细阐述了DataNode的心跳/块汇报机制、NameNode的安全模式工作原理,以及SecondaryNameNode执行checkpoint合并元数据的流程。

2025-10-09 22:38:19 693

C Primer Plus 个人笔记

C Primer Plus 个人笔记

2025-10-02

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除