- 博客(8)
- 收藏
- 关注
原创 学习笔记-Hadoop的入门学习
Apache Hadoop是一个开源的分布式计算框架,它允许在由大量计算机组成的集群上分布式地存储和处理大数据集。Hadoop的核心设计思想是能够处理大规模数据集,并且能够在硬件故障时保持数据的可靠性和计算的容错性。Hadoop的主要组件包括:1. **Hadoop分布式文件系统(HDFS)**:HDFS是Hadoop的核心存储系统,它提供了一个高吞吐量的分布式文件存储解决方案。HDFS将数据存储在多个节点上,并将数据分片成块,每个块通常默认大小为128MB或256MB。
2024-12-15 11:30:00
401
原创 学习记录-hive外表与内表的区别
**适用场景**:当数据需要在Hive以外的系统(如Hadoop MapReduce、Pig等)中使用,或者数据已经被其他系统管理,而Hive只是用来查询这些数据时,适合使用外部表。- **数据管理**:Hive不管理外部表的数据,它只负责管理外部表的元数据。2. **数据生命周期由Hive管理**:如果你希望Hive来管理数据的生命周期,包括数据的加载、更新和删除,那么内部表是更合适的。- **数据存储**:外部表的数据可以存储在Hive的默认仓库目录之外,用户可以指定外部表的存储位置。
2024-12-14 13:15:00
942
原创 记录Flume的日常学习记录
在Apache Flume中,`sources` 的 `type` 属性定义了数据源的类型,这决定了数据是如何被收集和发送到 `channels` 的。- **特点**:类似于Exec Source,但更加健壮,可以处理文件滚动的情况,即当文件被重命名或截断时,Taildir Source可以继续读取后续的内容。3. **taildir**:类似于 `exec`,但更加健壮,可以处理文件滚动的情况。2. **spooldir**:监控一个目录,当新的文件被放入该目录时,自动读取文件内容。
2024-12-13 18:30:00
595
原创 学习记录-Flume的概率记录
Apache Flume 是一个开源的、分布式的、可靠的数据收集、聚合和传输系统,主要用于将大量日志数据从源头传输到集中存储系统(如HDFS、HBase、Kafka等)。Flume最初由Cloudera开发,后来成为了Apache软件基金会的一个顶级项目。**Flume的发展历程**:1. **起源**:Flume起源于Cloudera,当时是为了解决从大量服务器收集日志数据的问题。它最早是作为Cloudera Distribution for Hadoop(CDH)的一部分被开发出来的。
2024-12-11 11:30:00
1750
原创 学习记录-Flink的基础入门
Apache Flink是一个开源流处理框架,由Apache软件基金会维护。它起源于柏林工业大学的一个研究项目,后来发展成为了一个功能强大的分布式数据处理工具。Flink的核心目标是在数据流上进行有状态计算,它能够处理无界和有界的数据流,并支持批处理和流处理的集成。起源与早期发展:Flink起源于柏林工业大学的一个研究项目,该项目旨在研究分布式数据流的处理。2010年,Flink项目开源,并在Apache软件基金会下进行孵化。Apache孵化器阶段。
2024-12-10 13:00:00
1709
原创 学习笔记记录-Linux常用命令
Eg: touch test.txt 就创建了一个新的txt后缀的新文件(前提是该文件之前不存在)也可以一次性创建多个文件 touch test1.txt test2.txt test3.txt。Touch a.txt -r b.txt 移花接木时间属性 时间戳属性继承。Touch命令可以改变创建的时间戳 也可以创建一个新的空文件。Man -w ls 查看ls命令帮助手册所在的文件位置。Man -k ls 搜索与ls命令有关的帮助文档。Eg: man ls 查看ls命令的帮助手册。
2024-12-09 13:41:58
314
原创 Flink大数据采集【学习笔记】(配置Flume文件从数据生成器采集数据至Kafka中)
从端口号25001的数据生成器中采集至kafka的topic中(allstart.sh脚本开启下)
2024-05-10 20:36:52
835
2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅