hadoop学习笔记1-概述

最新推荐文章于 2023-04-17 19:13:16 发布

一直想成为大神的菜鸟

最新推荐文章于 2023-04-17 19:13:16 发布

阅读量137

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_35653822/article/details/113928441

版权

一.HADOOP三大组件

hdfs负责存储 yarn负责调度和资源管理 mapreduce基于yarn
分布式存储+计算
hadoop可以存储海量数据，并且对数据进行统计分析，比如通过hive sql（类似于普通sql）

hadoop生态圈是很大的，想学好大数据，要学的东西特别多，目前从它三大组件开始

（别的软件图标都是动物，只有zookeeper是人，看起来zookeeper像动物管理员）

二.hdfs

核心组件1：hdfs分布式文件存储系统，多副本多个datanode 把文件存储到多个datanode上
特点：扩展性容错性：多副本,挂了几台机器都没关系，只要有一台还在就对整体没影响海量数据存储
为什么能处理海量数据：将大任务分解成小任务，一块磁盘分解成多个磁盘。对多个磁盘上的文件进行管理，就是分布式文件管理系统—HDFS
每个文件有多个数据块，每个数据块有多个副本，多个副本存储在不同的datanode上
比如把一个文件拆成两个部分，每个部分有三个副本，就算有一个副本所在机器挂了也不会让整个文件出现问题

三.yarn

核心组件2：yarn资源调度系统，
特点：扩展性容错性：出错时，可以进行一定次数的重试多框架资源统一调度
多框架资源统一调度：可以调度hbase,hive，spark等多种大数据所需框架

四.mapreduce

核心组件3:mapreduce分布式计算框架
特点：扩展性容错性海量数据的离线处理
海量数据的离线处理：之所以离线处理，因为数据量太大，所以延时性大

(目前在我使用过程中发现mapreduce本身也很慢，怪不得大家都用spark，不知道是不是我没做优化)

四.HADOOP优势

hadoop优势
1.可靠性
1.1副本形式存储，不容易丢失数据
1.2发生错误后重新计算
2.扩展性
2.1存储空间不够，可以增加节点便于扩展
2.2一个集群可以包含数以千计的节点
3.其他
3.1成熟
3.2可以放在廉价机器上

五.扩展

1.狭义hadoop包括hdfs,yarn,mapreduce
2.广义hadoop包括范围很广，是hadoop生态圈，他们整个组成hadoop

3.其他大数据所需要的东西

3.1.flume 收集日志
3.2.sqoop 理解为sql to hadoop的简写当然它也可以从hadoop to sql 数据交换工具
3.3.hbase 数据库可以存储大量数据

4.版本选择

apache原生的但是当hive hbase等hadoop生态圈这些东西一起使用时，会有版本冲突问题
商业版没有版本冲突

5.spark替换mapreduce

5.1 mapreduce是有默认排序的，但是很多应用场景都不需要排序，而且排序很消耗性能和时间
可以通过同为分布式计算框架的spark解决mapreduce的问题

5.2 spark也是apache下的
spark相当于给hadoop插上了翅膀，可见执行速度非常快

5.3 spark是一个计算引擎，它并不关注你的数据存到哪里了

5.4 spark能不能替换mapreduce?
网上看到的答案
两个的侧重点不一样，
mapReduce适合对实时性要求不高的计算（计算时中间结果溢写到磁盘），io消耗大，
spark是基于内存的计算框架，计算速度是很快的。一个是时间换空间另一个是空间换时间。
我的想法：既然mapreduce还有人维护，没有被apache抛弃，说明还是有它用武之地的。

spark的源码是用scala写的（虽然我也不知道scala是什么）

5.5spark特点
1.speed
2.easy to use
3.通用
4.runs everyWhere

一直想成为大神的菜鸟

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
hadoop学习笔记1-概述

一.HADOOP三大组件hdfs负责存储 yarn负责调度和资源管理 mapreduce基于yarn分布式存储+计算 hadoop可以存储海量数据，并且对数据进行统计分析，比如通过hive sql（类似于普通sql）hadoop生态圈是很大的，想学好大数据，要学的东西特别多，目前从它三大组件开始（别的软件图标都是动物，只有zookeeper是人，看起来zookeeper像动物管理员）二.hdfs核心组件1：hdfs分布式文件存储系统，多副本多个datanode 把文件存...
复制链接

扫一扫

一直想成为大神的菜鸟 CSDN认证博客专家 CSDN认证企业博客

码龄8年

125: 原创

1万+: 周排名

1万+: 总排名

15万+: 访问

: 等级

2007: 积分

5044: 粉丝

142: 获赞

17: 评论

288: 收藏

私信

关注

热门文章

分类专栏

排序 1篇
微信 3篇
git
mysql定时事件 1篇
文档在线浏览 1篇
decorators.xml
杂七杂八 3篇
linux安装swf openoffice 1篇
面试 1篇
mysql 2篇
kafka 1篇
电脑 1篇
shiro 1篇
excel 1篇
jpa 1篇
设计模式
spring 1篇
nginx 2篇
monggodb 1篇

最新评论

spring cache
qq_44773129: 请问作者，可以发下自定义的HashRedisCacheWriter代码吗
nginx安装
CSDN-Ada助手: 作为一个职业运维，是否一定要精通TCP/IP协议？对于加密和安全也要非常熟悉？
nginx转发配置
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)使用标准目录。
ARTHAS
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)增加内容的多样性(例如使用标准目录、标题、图片、链接、表格等元素)；(2)增加除了各种控件外，文章正文的字数；(3)使用标准目录。
右键后资源管理器重启
野蛮薄荷: 自己是重装wps,解决这个问题的

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。