大数据生态系统的主要开源技术和框架

你凡不凡

已于 2022-06-25 14:16:23 修改

阅读量2.1k

点赞数

分类专栏：大数据技术文章标签：大数据 kafka hadoop flink flume

于 2022-06-25 14:10:17 首次发布

本文链接：https://blog.csdn.net/m0_57468792/article/details/125458592

版权

前言

目前大数据相关的技术可以说是蓬勃发展百花齐放，对于初人者来说，一个个响亮的名字，一个个眼花缭乱的框架，之前刚了解了一个，很快又跳出来一个，真是让人眼花缭乱,无从下手,但是万变不离其宗，不管这些技术如何变化、名词如何新颖，它们都属于下图介绍的某个具体流程和环节，因此下面将结合前面所述的数据流程来介绍当前在这里插入图片描述

1.数据采集传输主要技术：

数据采集传输工具和技术主要分为两大类：离线批处理和实时数据采集和传输。离线批处理主要是批量一次性采集和导出数据,离线批处理目前比较有名的的是sqoop,下游的用户主要是离线数据处理平台(如Hive等)。实时数据采集和传输最为常用的则是Flume和kafka，其下游用户一般是实时流处理平台，如Storm、Spark、Flink等。

1.1 Sqoop

Sqoop 作为一款开源的离线数据传输工具，主要用于Hadoop(Hive)与传统数据库(Mysql,PostgreSQL等)间的数据传递。它可以将一个关系型数据库中的数据导入Hadoop的HDFS中,也可以将HDFS的数据导入关系型数据库中。

1.2 Flume

随着目前业务对实时数据需求的日益增长，实时数据的采集越来越受到重视,而Flume也是这方面的主流的开源框架,国内很多互联网公司也都是基于Flume搭建自己的实时日志采集平台。
Flume是Cloudera提供的一个高可用、高可靠、分布式的海量日志采集、聚合和传输的系统,使用Flume可以收集诸如日志、时间等数据,并将这些数据资源集中存储起来供下游使用。

1.3 Kafka

通常来说Flume采集数据的速度和下游处理的速度通常不同步,因此实时平台架构都会用一个消息中间件来缓冲,而这方面最为流行和应用最为广泛的无疑是Kafka。
Kafka是由LinkedIn开发的一个分布式消息系统,以其可以水平扩展和高吞吐率而被广泛使用,Kafka是一个基于分布式的消息发布-订阅系统,特点是快速、可扩展且持久。Kafka可在主题当中保存消息的信息。生产者向主题写入数据,消费者从主题读取数据。作为一个分布式的、分区的、低延迟的、冗余的日志提交服务,得益于其独特的设计,目前Kafka使用非常广泛。

最低0.47元/天解锁文章