大数据开发工具-storm-spark-hadhoop-hive

最新推荐文章于 2023-06-09 14:58:56 发布

HJZ11

最新推荐文章于 2023-06-09 14:58:56 发布

阅读量343

点赞数

分类专栏： # 大数据

本文链接：https://blog.csdn.net/HJZ11/article/details/106652390

版权

大数据专栏收录该内容

1 篇文章 0 订阅

订阅专栏

文章目录

1.hadhoop
2.hive
- 2.1 sqoop
3.storm
4.spark

解决大数据处理相关的问题，往往要经过
数据收集（Flume、Kafka、Sqoop）、
数据存储（HDFS、HBase）、
资源管理（YARN）、
计算（MapReduce、Spark）、
数据分析（Pandas、NumPy、R）、
数据可视化（Echart、Tableau）等环节。
各个环节都有其相应的工具，
Hadoop和Spark就是大数据处理流程中非常常用的两个框架。

1.hadhoop

Hadoop是一个开源的可运行于大规模集群上的分布式文件系统和运行处理基础框架。

Hadoop由HDFS、MapReduce、HBase、Hive和ZooKeeper等成员组成，
其中最基础最重要元素为底层用于存储集群中所有存储节点文件的文件系统
HDFS（Hadoop Distributed File System）来执行MapReduce程序的MapReduce引擎。

在这里插入图片描述
（1）Pig是一个基于Hadoop的大规模数据分析平台，Pig为复杂的海量数据并行计算提供了一个简单的操作和编程接口；
（2）Hive是基于Hadoop的一个工具，提供完整的SQL查询，可以将sql语句转换为MapReduce任务进行运行；
（3）ZooKeeper:高效的，可拓展的协调系统，存储和协调关键共享状态；
（4）HBase是一个开源的，基于列存储模型的分布式数据库；
（5）HDFS是一个分布式文件系统，有着高容错性的特点，适合那些超大数据集的应用程序；
（6）MapReduce是一种编程模型，用于大规模数据集（大于1TB）的并行运算。

2.hive

Hive：
hive是基于Hadoop的一个数据仓库工具，
可以将结构化的数据文件（或者非结构化的数据）映射为一张数据库表，
并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。 
其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，
不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。

2.1 sqoop

sqoop：
sqoop是和Hive一起使用的。Sqoop(发音：skup)是一款开源的工具，
主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递，
可以将一个关系型数据库（例如 ： MySQL ,Oracle ,Postgres等）中的数据导进到Hadoop的HDFS中，
也可以将HDFS的数据导进到关系型数据库中。

3.storm

4.spark

在这里插入代码片

在这里插入图片描述

Spark之上提供了四种应用库：

Spark SQL 是为处理结构化数据而设计的模块
Spark Streaming 可以很容易地创建可扩展和容错性的流式应用
MLlib 是Spark的可扩展机器学习库
GraphX 是Spark的并行图计算API

HJZ11

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
大数据开发工具-storm-spark-hadhoop-hive

文章目录1.hadhoop2.hive2.1 sqoop3.storm4.spark解决大数据处理相关的问题，往往要经过数据收集（Flume、Kafka、Sqoop）、数据存储（HDFS、HBase）、资源管理（YARN）、计算（MapReduce、Spark）、数据分析（Pandas、NumPy、R）、数据可视化（Echart、Tableau）等环节。各个环节都有其相应的工具，Hadoop和Spark就是大数据处理流程中非常常用的两个框架。1.hadhoopHadoop是一个开源的
复制链接

扫一扫

专栏目录