勇敢修勾不怕困难-CSDN博客

原创学习笔记-Hadoop的入门学习

Apache Hadoop是一个开源的分布式计算框架，它允许在由大量计算机组成的集群上分布式地存储和处理大数据集。Hadoop的核心设计思想是能够处理大规模数据集，并且能够在硬件故障时保持数据的可靠性和计算的容错性。Hadoop的主要组件包括：1. **Hadoop分布式文件系统（HDFS）**：HDFS是Hadoop的核心存储系统，它提供了一个高吞吐量的分布式文件存储解决方案。HDFS将数据存储在多个节点上，并将数据分片成块，每个块通常默认大小为128MB或256MB。

2024-12-15 11:30:00 401

原创学习记录-hive外表与内表的区别

**适用场景**：当数据需要在Hive以外的系统（如Hadoop MapReduce、Pig等）中使用，或者数据已经被其他系统管理，而Hive只是用来查询这些数据时，适合使用外部表。- **数据管理**：Hive不管理外部表的数据，它只负责管理外部表的元数据。2. **数据生命周期由Hive管理**：如果你希望Hive来管理数据的生命周期，包括数据的加载、更新和删除，那么内部表是更合适的。- **数据存储**：外部表的数据可以存储在Hive的默认仓库目录之外，用户可以指定外部表的存储位置。

2024-12-14 13:15:00 942

原创记录Flume的日常学习记录

在Apache Flume中，`sources` 的 `type` 属性定义了数据源的类型，这决定了数据是如何被收集和发送到 `channels` 的。- **特点**：类似于Exec Source，但更加健壮，可以处理文件滚动的情况，即当文件被重命名或截断时，Taildir Source可以继续读取后续的内容。3. **taildir**：类似于 `exec`，但更加健壮，可以处理文件滚动的情况。2. **spooldir**：监控一个目录，当新的文件被放入该目录时，自动读取文件内容。

2024-12-13 18:30:00 595

原创学习记录-Flume的概率记录

Apache Flume 是一个开源的、分布式的、可靠的数据收集、聚合和传输系统，主要用于将大量日志数据从源头传输到集中存储系统（如HDFS、HBase、Kafka等）。Flume最初由Cloudera开发，后来成为了Apache软件基金会的一个顶级项目。**Flume的发展历程**：1. **起源**：Flume起源于Cloudera，当时是为了解决从大量服务器收集日志数据的问题。它最早是作为Cloudera Distribution for Hadoop（CDH）的一部分被开发出来的。

2024-12-11 11:30:00 1750

原创学习记录-Flink的基础入门

Apache Flink是一个开源流处理框架，由Apache软件基金会维护。它起源于柏林工业大学的一个研究项目，后来发展成为了一个功能强大的分布式数据处理工具。Flink的核心目标是在数据流上进行有状态计算，它能够处理无界和有界的数据流，并支持批处理和流处理的集成。起源与早期发展：Flink起源于柏林工业大学的一个研究项目，该项目旨在研究分布式数据流的处理。2010年，Flink项目开源，并在Apache软件基金会下进行孵化。Apache孵化器阶段。

2024-12-10 13:00:00 1709

原创学习笔记记录-Linux常用命令

Eg: touch test.txt 就创建了一个新的txt后缀的新文件(前提是该文件之前不存在)也可以一次性创建多个文件 touch test1.txt test2.txt test3.txt。Touch a.txt -r b.txt 移花接木时间属性时间戳属性继承。Touch命令可以改变创建的时间戳也可以创建一个新的空文件。Man -w ls 查看ls命令帮助手册所在的文件位置。Man -k ls 搜索与ls命令有关的帮助文档。Eg: man ls 查看ls命令的帮助手册。

2024-12-09 13:41:58 314

原创正则表达式【学习笔记】（从零如何快速了解正则表达式）

本次笔记记录自己如何学习正则表达式及其应用。

2024-05-13 16:23:43 1886

原创 Flink大数据采集【学习笔记】（配置Flume文件从数据生成器采集数据至Kafka中）

从端口号25001的数据生成器中采集至kafka的topic中(allstart.sh脚本开启下)

2024-05-10 20:36:52 835 2

NIANDD的博客