大数据开发流程图

最新推荐文章于 2024-10-08 22:18:52 发布

李旭me

最新推荐文章于 2024-10-08 22:18:52 发布

阅读量4.4k

点赞数 3

文章标签：大数据大数据流程图大数据开发大数据学习

本文链接：https://blog.csdn.net/dashujujiagoushi/article/details/103273972

版权

本文介绍了大数据开发的关键技术，包括数据处理的Sqoop、Flume、Kafka、MapReduce、Hive、Spark，数据存储的HDFS、HBase，以及数据应用的Drill、R语言和TensorFlow。此外，还提到了数据埋点的重要性。

摘要由CSDN通过智能技术生成

1、大数据流程图

2、大数据各个环节主要技术

2.1、数据处理主要技术

Sqoop：（发音：skup）作为一款开源的离线数据传输工具，主要用于Hadoop(Hive) 与传统数据库（MySql,PostgreSQL）间的数据传递。它可以将一个关系数据库中数据导入Hadoop的HDFS中，

也可以将HDFS中的数据导入关系型数据库中。如果你对大数据开发感兴趣，想系统学习大数据的话，可以加入大数据技术学习交流扣扣群：458数字345数字782，欢迎添加，私信管理员，了解课程介绍，获取学习资源

Flume：实时数据采集的一个开源框架，它是Cloudera提供的一个高可用用的、高可靠、分布式的海量日志采集、聚合和传输的系统。目前已经是Apache的顶级子项目。使用Flume可以收集诸如日志、时间等数据

并将这些数据集中存储起来供下游使用（尤其是数据流框架，例如Storm）。和Flume类似的另一个框架是Scribe（FaceBook开源的日志收集系统，它为日志的分布式收集、统一处理提供一个可扩展的、高容错的简单方案）

　Kafka：通常来说Flume采集数据的速度和下游处理的速度通常不同步，因此实时平台架构都会用一个消息中间件来缓冲，而这方面最为流行和应用最为广泛的无疑是Kafka。它是由LinkedIn开发的一个分布式消息系统，

以其可以水平扩展和高吞吐率而被广泛使用。目前主流的开源分布式处理系统（如Storm和Spark等）都支持与Kafka 集成。

Kafka是一个基于分布式的消息发布-订阅系统，特点是速度快、可扩展且持久。与其他消息发布-订阅系统类似，Kafka可在主题中保存消息的信息。生产者向主题写入数据，消费者从主题中读取数据。

作为一个分布式的、分区的、低延迟的、冗余的日志提交服务。和Kafka类似消息中间件开源产品还包括RabbiMQ、ActiveMQ、ZeroMQ等。

　MapReduce：

　MapReduce是Google公司的核心计算模型，它将运行于大规模集群上的复杂并行计算过程高度抽象为两个函数：map和reduce。MapReduce最伟大之处在于其将处理大数据的能力赋予了普通开发人员，

以至于普通开发人

关注