大数据开发工具-storm-spark-hadhoop-hive

解决大数据处理相关的问题,往往要经过
数据收集(Flume、Kafka、Sqoop)、
数据存储(HDFS、HBase)、
资源管理(YARN)、
计算(MapReduce、Spark)、
数据分析(Pandas、NumPy、R)、
数据可视化(Echart、Tableau)等环节。
各个环节都有其相应的工具,
Hadoop和Spark就是大数据处理流程中非常常用的两个框架。

1.hadhoop

Hadoop是一个开源的可运行于大规模集群上的分布式文件系统和运行处理基础框架。
Hadoop由HDFS、MapReduce、HBase、Hive和ZooKeeper等成员组成,
其中最基础最重要元素为底层用于存储集群中所有存储节点文件的文件系统
HDFS(Hadoop Distributed File System)来执行MapReduce程序的MapReduce引擎。

在这里插入图片描述
(1)Pig是一个基于Hadoop的大规模数据分析平台,Pig为复杂的海量数据并行计算提供了一个简单的操作和编程接口;
(2)Hive是基于Hadoop的一个工具,提供完整的SQL查询,可以将sql语句转换为MapReduce任务进行运行;
(3)ZooKeeper:高效的,可拓展的协调系统,存储和协调关键共享状态;
(4)HBase是一个开源的,基于列存储模型的分布式数据库;
(5)HDFS是一个分布式文件系统,有着高容错性的特点,适合那些超大数据集的应用程序;
(6)MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。

2.hive

Hive:
hive是基于Hadoop的一个数据仓库工具,
可以将结构化的数据文件(或者非结构化的数据)映射为一张数据库表,
并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 
其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,
不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。

2.1 sqoop

sqoop:
sqoop是和Hive一起使用的。Sqoop(发音:skup)是一款开源的工具,
主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递,
可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,
也可以将HDFS的数据导进到关系型数据库中。

3.storm

4.spark

在这里插入代码片

在这里插入图片描述

Spark之上提供了四种应用库:

Spark SQL 是为处理结构化数据而设计的模块
Spark Streaming 可以很容易地创建可扩展和容错性的流式应用
MLlib 是Spark的可扩展机器学习库
GraphX 是Spark的并行图计算API
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值