Hadoop(一)关于hadoop认识和理解

一、hadoop是什么?
狭义上:hadoop是一个apache的一个顶级项目,一套开源软件平台
广义上:hadoop是以hadoop为核心的整个大数据处理体系
二、hadoop核心组件
1、Hadoop Common :支持其他Hadoop模块的常用工具
2、HDFS:hadoop分布式文件系统,提供对应用程序的高吞吐量访问
3、Hadoop Yarn:作业调度和集群资源管理框架
4、Hadoop MapReduce:基于Yarn框架的一种并行处理大型数据集的系统
通俗点说,Yarn相当于计算机的操作系统
HDFS相当于计算机的文件系统
MapReduce相当于运行在操作系统上的软件
三、hadoop生态圈常见组件
1、Ambari:一种用于供应、管理和监控Apache Hadoop集群的基于Web的工具,其中包括对Hadoop HDFS,Hadoop MapReduce,Hive,HCatalog,Hbase,Zookeeper,Oozie,pig和Sqoop的支持。Ambari还提供了一个用于查看集群运行状况的仪表板,,例如热图和可以直观查看的MapReduce,Pig和Hive应用程序的功能,以及以用户友好的方式诊断其性能特征的功能。
2、Avro:数据序列化系统
3、Cassandra:无单点故障的可扩展的数据库
4、Chukwa:管理大型分布式的数据收集系统
5、HBase:可扩展的分布式数据库,支持大型表格的结构化数据存储
6、Hive提供数据汇总和吉时查询的数据仓库基础架构
7、Mahou:可扩展的机器学习和数据挖掘库‘
8、Pig:用于并行计算的高级数据流语言和执行框架
9、Spark:用于Hadoop数据的快速和通用计算引擎。spark提供了一个简单而富有表现力的编程模型,它支持广泛的应用程序,包括ETL(数据抽取、转换和加载)、机器学习、流处理和图计算。
10、Tez:一种基于Hadoop Yarn的通用数据流编程框架,它提供了一种强大而灵活的引擎,可以执行任意DAG任务来处理批处理和交互式用例的数据。
11、zookeeper:分布式应用程序的高性能协调服务
重要组件:
HDFS:Hadoop的分布式文件存储系统。
MapReduce:Hadoop的分布式程序运算框架,也可以叫做一种编程模型。
Hive:基于Hadoop的类SQL数据仓库工具
Hbase:基于Hadoop的列式分布式NoSQL数据库
ZooKeeper:分布式协调服务组件
Mahout:基于MapReduce/Flink/Spark等分布式运算框架的机器学习算法库
Oozie/Azkaban:工作流调度引擎
Sqoop:数据迁入迁出工具
Flume:日志采集工具
四、Hadoop的技术应用
1、数据服务基础平台建设
2、用户画像
3、网站点击流日志数据挖掘

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Spark和Hadoop实验总结报告 一、实验背景 本次实验是为了了解分布式系统中的大数据处理工具,主要学习Apache Spark和Hadoop两个分布式大数据处理工具的使用和比较。 二、实验目的 1. 了解Apache Spark和Hadoop大数据处理框架的基本原理和架构; 2. 学习使用Spark和Hadoop处理大规模数据; 3. 掌握Spark和Hadoop的优缺点比较。 三、实验内容 1. 安装配置Hadoop和Spark; 2. 学习Hadoop和Spark的基本概念和使用方法; 3. 使用Hadoop和Spark进行数据处理; 4. 分析比较Hadoop和Spark的优缺点。 四、实验步骤 1. 安装配置Hadoop和Spark 我采用的是在Ubuntu 18.04系统下使用wget工具下载并解压Hadoop、Spark等软件包进行安装配置。安装配置的过程中主要遇到了如下几个问题: (1) Hadoop配置文件修改:Hadoop的配置文件许多,操作起来较为繁琐,需要仔细阅读并修改配置文件信息。 (2) Spark的环境变量配置:Spark需要在bashrc文件做全局环境变量的配置。我遇到过Spark安装完成后,hadoop-daemon.sh start namenode启动失败的问题,其中还涉及到了Java的配置问题。最后通过重启Ubuntu系统和再次配置后解决。 2. 学习Hadoop和Spark基本概念和使用方法 Hadoop和Spark都是分布式大数据处理的工具。Hadoop分为两个子项目:HDFS和MapReduce,其中HDFS是分布式文件系统,MapReduce是分布式计算框架;而Spark则是一种快速、通用的集群计算系统,可以支持内存计算,对于迭代计算模型有较好的支持。 3. 使用Hadoop和Spark进行数据处理 我采用了两个较基础的数据处理算法: (1) WordCount算法:统计给定文本中每个单词出现的次数。这是大数据处理领域中最常用的算法之一,也是Hadoop的HelloWorld。 (2) 温度计算算法:使用气象站收集的数据计算出每个月的平均气温。 通过这两个算法,我掌握了Hadoop和Spark的数据处理流程、API接口和调试方法。数据处理过程中我的主要工作是对Hadoop和Spark处理结果的正确性和可读性进行验证和评估。 4. 分析比较Hadoop和Spark的优缺点 (1) 简便性方面:Hadoop的安装配置过程较为繁琐,安装配置过程中遇到的问题也比较多,需要仔细阅读文档才能进行操作。相比之下,Spark的安装配置过程较为简单,同时也成为了大数据处理工具中的一种主流工具之一。 (2) 易用性方面:Hadoop的编写代码和编译打包需要耗费一定的时间,查错也比较困难,而Spark的交互式编程可以更直观便捷地进行数据操作。 (3) 性能方面:Spark的RDD(弹性分布式数据集)是一个高速缓存,可以将数据缓存到内存中,从而快速响应数据操作请求。而Hadoop的分布式计算则需要中间文件,处理较为频繁。因此在对大规模数据进行处理的时候,Spark具有更快的计算速度。 五、实验感想 本次实验,我对大数据处理这一领域有了更深入的了解。Hadoop和Spark都是本领域中非常重要的工具,在学习的过程中,我不仅提升了大数据处理能力,也加深了对分布式计算的理解,对未来的学习和工作都有一定的借鉴意义。 总之,本次实验内容丰富,操作繁琐,不过从中我也收获颇丰,掌握了Spark和Hadoop数据处理的基本操作和API接口,了解了Hadoop和Spark的优缺点。通过实验,我进一步加深了对专业知识的理解,同时也获得了实践经验,对以后的学习和研究具有重要意义。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值