大数据（hadoop-flume的原理架构）

最新推荐文章于 2024-07-13 21:32:34 发布

chouhanyi2822

最新推荐文章于 2024-07-13 21:32:34 发布

阅读量102

点赞数

原文链接：https://my.oschina.net/u/3728166/blog/3061770

版权

背景介绍

Hadoop提供了一个中央化的存储系统
有利于进行集中式的数据分析与数据共享

Hadoop对存储格式没有要求：
用户访问日志
产品信息
网页数据等

如何将数据存入Hadoop：
数据分散在各个离散的设备上
数据保存在传统的存储设备和系统中

常见的两种数据来源

分散的数据源：
机器产生的数据；
用户访问日志；
用户购买日志。

传统系统中的数据：
传统关系型数据库：Mysql、Oracle等；

Hadoop收集和入库基本要求

分布式
数据源多样化
数据源分散

可靠性
保证不丢数据
允许丢部分数据

可扩展
数据源可能会不断增加

通过并行提高性能

数据收集
Flume
Kafka
Scribe

传统数据库与Hadoop同步
Sqoop

Flume

Flume OG
OG：“Original Genaration”
0.9.x或cdh3以及更早版本
由agent、collector、master等组件构成

Flume NG
NG：“Next/New Generation”
1.x或cdh4以及之后的版本
由Agent、Client等组件构成

为什么要推出NG版本
精简代码
架构简化

Flume OG基本架构

Flume NG基本架构

转载于:https://my.oschina.net/u/3728166/blog/3061770

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

chouhanyi2822

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Hadoop生态圈之Flume（一）

cpz

08-29

634

1. 概述 Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的软件。 Flume的核心是把数据从数据源(source)收集过来，再将收集到的数据送到指定的目的地(sink)。为了保证输送的过程一定成功，在送到目的地(sink)之前，会先缓存数据(channel),待数据真正到达目的地(sink)后，flume在删除自己缓存的...

大数据组件-Flume高可用集群搭建

03-28

### 大数据组件-Flume高可用集群搭建 #### Flume概述 Flume是一个高度可靠的分布式数据收集系统，主要用于从多种数据源收集并传输数据至Hadoop生态系统内进行后续处理。由于其强大的可扩展性和可靠性，Flume在大型...

参与评论您还未登录，请先登录后发表或查看评论

Hadoop之Flume架构以及应用介绍

南北雪树的专栏

07-05

922

在具体介绍本文内容之前，先给大家看一下Hadoop业务的整体开发流程：从hadoop的业务开发流程图中可以看出，在大数据的业务处理过程中，对于数据的采集是十分重要的一步，也是不可避免的一步，从而引出我们本文的主角—Flume。本文将围绕Flume的架构、Flume的应用(日志采集)进行详细的介绍。一、Flume架构介绍 1、Flume的概念 flume是分布式的

Flume+Hadoop：打造你的大数据处理流水线

Hanko的专栏

05-07

657

Apache Flume是一个高可用的、高可靠的，分布式的海量日志采集、聚合和传输的系统。它基于流式架构，提供了灵活性和简单性，能够实时读取服务器本地磁盘的数据，并将数据写入到HDFS。

hadoop(十二)、Flume基本介绍

qq_34300892的博客

03-28

440

一、Flume基本概念 flume是分布式的、可靠的、高可用的，用于对不同来源的大量日志数据进行有效采集、聚集和移动，并以集中式的数据存储的系统二、flume中重要的模型 1、flume Event： flume 事件，被定义为一个具有有效荷载的字节数据流和可选的字符串属性集。 2、flume Agent： flume 代理，是一个进程承载从外部源事件流到下一个目的地的过程。包含source c...

Flume+Hadoop大数据采集部署

最新发布

weixin_42732268的博客

07-13

742

大数据平台-Flume培训

03-03

Apache Flume 是一个专为大数据平台设计的...总之，Apache Flume作为大数据平台的重要组件，通过其灵活的架构和丰富的插件，为企业的大规模日志管理和分析提供了强大支持，帮助企业更好地理解和利用其生成的海量数据。

Apache Hadoop---Flume.docx

06-11

Apache Hadoop—Flume 是一个专门用于大数据环境的日志聚合工具，它被设计为分布式、可靠且高可用的系统，能够高效地收集、聚合和传输海量日志数据。Flume 提供了高度定制化的能力，允许用户根据需求配置不同的数据...

大数据课程-Hadoop集群程序设计与开发-8.Flume日志采集系统_lk_edit.pptx

01-01

在大数据课程中，教师可以依据这些内容进行详细的教学，包括理论讲解、动手实践和案例分析，帮助学生全面理解并掌握Flume在Hadoop集群程序设计与开发中的作用。通过这样的学习，学生不仅可以提升数据采集技能，还能...

apache-flume-1.9.0-bin.tar.zip

10-07

在Flume的架构中，数据流动通过三个核心概念：源头（Sources）、通道（Channels）和接收器（Sinks）。这些组件协同工作，确保数据的高效传输。 1. **源头（Sources）**：源头是Flume的数据输入端，负责从各种数据源...

Hadoop数据收集与入库系统Flume与Sqoop

yunpiao123456的专栏

07-12

8577

Hadoop提供了一个中央化的存储系统，其有利于进行集中式的数据分析与数据共享。 Hadoop对存储格式没有要求。可以存储用户访问日志、产品信息以及网页数据等数据。常见的两种数据来源。一种是分散的数据源：机器产生的数据、用户访问日志以及用户购买日志。另一种是传统系统中的数据：传统关系型数据库（MySQL、Oracle）、磁盘阵列以及磁带。 Flume由

Hadoop flume简介

第四维度

03-16

1852

（一）Flume简介 1.什么是Flume？ Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。Flume支持在日志系统中定制各类数据发送方，用于收集数据;同时，Flume提供对数据进行简单处理，并写到各种数据接受方(比如文本、HDFS、Hbase等)的能力。其设计原理也是基于将数据流，如日志数据从各种网站服务器上汇集起来存储到HDFS，HBase等集中存储器中。其结...

hadoop学习——flume的简单介绍

凌大大的博客

01-09

1709

flume介绍概述 Flume最早是Cloudera提供的日志收集系统，后贡献给Apache。所以目前是Apache下的项目，Flume支持在日志系统中定制各类数据发送方，用于收集数据。 Flume是一个高可用的，高可靠的鲁棒性（robust 健壮性），分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据(source);同时，Flume提...

Hadoop生态Flume（一）介绍

茅坤宝骏氹的博客

11-16

436

一、概述 Apache Flume是一个分布式，可靠且可用的系统，用于有效地收集，聚合大量日志数据并将其从许多不同的源移动到集中式数据存储中。 Apache Flume的使用不仅限于日志数据聚合。由于数据源是可定制的，因此Flume可用于传输大量事件数据，包括但不限于网络流量数据，社交媒体生成的数据，电子邮件消息以及几乎所有可能的数据源。 Apache Flume是Apache Softwa...

Hadoop、Spark、Flink、Hive、Flume、kafka等大数据框架的角色和关系

QAQ_JUIMY的博客

12-20

6116

大数据框架

hadoop整合flume

祗要习惯就好的博客

10-30

967

hadoop整合flume基本流程

[hadoop]Flume的安装、配置及其依赖Flume实时监控特定文件夹上传到HDFS

qq_44172732的博客

05-11

2483

代码驿站一、简单理解作用基本构成二、Flume的安装及使用安装及配置写properties文件启动flume三、启动之后一、简单理解作用 Flume提供一种分布式的，可靠地，对大量数据的日志进行高效处理，聚集，移动的服务。flume只能在Unix的环境下运行。 Flume基于流式框架，容错性强，也灵活简单。 Flume，Kafka用来进行数据收集的，Spart，Storm用来实时处理数据，impala用来实时查询。基本构成 Source 用于采集数据，Source是产生数据流的地方，同时Sour

Flume+Hadoop+Hive的离线分析系统基本架构