自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 学习笔记-Hadoop的入门学习

Apache Hadoop是一个开源的分布式计算框架,它允许在由大量计算机组成的集群上分布式地存储和处理大数据集。Hadoop的核心设计思想是能够处理大规模数据集,并且能够在硬件故障时保持数据的可靠性和计算的容错性。Hadoop的主要组件包括:1. **Hadoop分布式文件系统(HDFS)**:HDFS是Hadoop的核心存储系统,它提供了一个高吞吐量的分布式文件存储解决方案。HDFS将数据存储在多个节点上,并将数据分片成块,每个块通常默认大小为128MB或256MB。

2024-12-15 11:30:00 401

原创 学习记录-hive外表与内表的区别

**适用场景**:当数据需要在Hive以外的系统(如Hadoop MapReduce、Pig等)中使用,或者数据已经被其他系统管理,而Hive只是用来查询这些数据时,适合使用外部表。- **数据管理**:Hive不管理外部表的数据,它只负责管理外部表的元数据。2. **数据生命周期由Hive管理**:如果你希望Hive来管理数据的生命周期,包括数据的加载、更新和删除,那么内部表是更合适的。- **数据存储**:外部表的数据可以存储在Hive的默认仓库目录之外,用户可以指定外部表的存储位置。

2024-12-14 13:15:00 942

原创 记录Flume的日常学习记录

在Apache Flume中,`sources` 的 `type` 属性定义了数据源的类型,这决定了数据是如何被收集和发送到 `channels` 的。- **特点**:类似于Exec Source,但更加健壮,可以处理文件滚动的情况,即当文件被重命名或截断时,Taildir Source可以继续读取后续的内容。3. **taildir**:类似于 `exec`,但更加健壮,可以处理文件滚动的情况。2. **spooldir**:监控一个目录,当新的文件被放入该目录时,自动读取文件内容。

2024-12-13 18:30:00 595

原创 学习记录-Flume的概率记录

Apache Flume 是一个开源的、分布式的、可靠的数据收集、聚合和传输系统,主要用于将大量日志数据从源头传输到集中存储系统(如HDFS、HBase、Kafka等)。Flume最初由Cloudera开发,后来成为了Apache软件基金会的一个顶级项目。**Flume的发展历程**:1. **起源**:Flume起源于Cloudera,当时是为了解决从大量服务器收集日志数据的问题。它最早是作为Cloudera Distribution for Hadoop(CDH)的一部分被开发出来的。

2024-12-11 11:30:00 1750

原创 学习记录-Flink的基础入门

Apache Flink是一个开源流处理框架,由Apache软件基金会维护。它起源于柏林工业大学的一个研究项目,后来发展成为了一个功能强大的分布式数据处理工具。Flink的核心目标是在数据流上进行有状态计算,它能够处理无界和有界的数据流,并支持批处理和流处理的集成。起源与早期发展:Flink起源于柏林工业大学的一个研究项目,该项目旨在研究分布式数据流的处理。2010年,Flink项目开源,并在Apache软件基金会下进行孵化。Apache孵化器阶段。

2024-12-10 13:00:00 1709

原创 学习笔记记录-Linux常用命令

Eg: touch test.txt 就创建了一个新的txt后缀的新文件(前提是该文件之前不存在)也可以一次性创建多个文件 touch test1.txt test2.txt test3.txt。Touch a.txt -r b.txt 移花接木时间属性 时间戳属性继承。Touch命令可以改变创建的时间戳 也可以创建一个新的空文件。Man -w ls 查看ls命令帮助手册所在的文件位置。Man -k ls 搜索与ls命令有关的帮助文档。Eg: man ls 查看ls命令的帮助手册。

2024-12-09 13:41:58 314

原创 正则表达式【学习笔记】(从零如何快速了解正则表达式)

本次笔记记录自己 如何学习 正则表达式 及其应用。

2024-05-13 16:23:43 1886

原创 Flink大数据采集【学习笔记】(配置Flume文件从数据生成器采集数据至Kafka中)

从端口号25001的数据生成器中采集至kafka的topic中(allstart.sh脚本开启下)

2024-05-10 20:36:52 835 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除