![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
狂野弘仁
这个作者很懒,什么都没留下…
展开
-
HDFS和MapReduce擅长与局限
HDFS的优势HDFS的英文全称是 Hadoop Distributed File System,即Hadoop分布式文件系统,它是Hadoop的核心子项目。实际上,Hadoop中有一个综合性的文件系统抽象,它提供了文件系统实现的各类接口,而HDFS只是这个抽象文件系统的一种实现,但HDFS是各种抽象接口中应用最为广泛和最广为人知的一个。HDFS被设计成适合运行在通用和廉价硬件上的分布式文件系统。它和现有的分布式文件系统有很多共同点,但他和其它分布式文件系统的区别也是明显的。HDFS是基于流式数据模式访原创 2020-06-17 22:01:50 · 1480 阅读 · 0 评论 -
HDFS简要介绍
HDFS 出现背景随着数据量越来越大,一个操作系统存不下所有数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。。HDFS只是分布式文件管理系统中的一种。HDFS定义HDFS(Hadoop Distributed File System),它是一个文件系统,用于存储文件,通过目录树来定位文件,其次是分布式,由很多服务器联合起来实现其功能,集群中服务器有各自角色。HDFS的使用场景:适合一次写入,多次读出的场景,且不支持文件原创 2020-06-16 22:42:20 · 158 阅读 · 0 评论 -
HDFS组成介绍
NoneName(NN)存储文件的原数据,如文件名,文件目录(生成时间,副本数,文件权限等),每个文件的块列表和块所在的DataNode等等DataNode(DN)本地文件系统存储文件块数据,以及块数据的校验和Secondary NameNode (2NN)用来监控HDFS状态的辅助后台程序,每隔一段时间获取HDFS元数据快照...原创 2020-06-15 23:44:14 · 202 阅读 · 0 评论 -
Hadoop1.x和Hadoop2.x区别
Hadoop1.x中MapReduce处理业务逻辑同时负责资源调度耦合性较高,在Hadoop2.x增加Yarn,Yarn只负责资源调度,MapReduce只负责运算。原创 2020-06-15 23:38:04 · 166 阅读 · 0 评论 -
Hadoop优势
高可靠性Hadoop 底层维护多个数据副本,所以即使Hadoop某个计算元素或存储出现故障,也不会导致数据丢失高扩展在集群间分配任务数据,可方便的扩展数以千计的节点高效性MapReduce思想下,Hadoop是并行工作,以加快任务处理速度。高容错性能够自动将失败的任务重新分配...原创 2020-06-15 23:16:41 · 154 阅读 · 0 评论 -
Hadoop MapReduce概述讲解
Hadoop MapReduce概述讲解MapReduce定义MapReduce优点易于编程良好的扩展性MapReduce定义 MapReduce是一个分布式运算程序的编程框架,是基于Hadoop的数据分析计算的核心框架。 MapReduce处理过程分为两个阶段:Map阶段和Reduce阶段 Map负责把一个任务分解成多个任务 Reduce负责把分解后多任务处理的结果汇总MapReduce优点易于编程简单实现一些接口,原创 2020-06-12 23:44:34 · 285 阅读 · 0 评论 -
Hadoop目录结构说明讲解
(1)bin目录:存放对Hadoop相关服务(HDFS,YARN)进行操作的脚本(2)etc目录:Hadoop的配置文件目录,存 放Hadoop的配置文件(3)lib目录:存放Hadoop的本地库(对数据进行压缩解压缩功能)(4)sbin目录:存放启动或停止Hadoop相关服务的脚本(5)share目录:存放Hadoop的依赖jar包、文档、和官方案例...原创 2020-06-12 23:31:21 · 409 阅读 · 0 评论 -
大数据讲解简述
大数据讲解概念简述大数据概念大数据特点大数据应用场景大数据概念大数据:指无法在一定时间范围内用常规软件工具进行管理、处理、捕捉的数据集合,需要新的处理模式才能具有更强的决策力、洞察发现和流程优化的能力的海量、高增长和多样化的信息资产。主要解决问题:海量数据存储和分析计算大数据特点大量(Volume)截至目前(2019-07),人类生产的所有印刷材料的数据量是200PB,而历史上人类总共说过的话数据大约是5EB,当前,典型个人计算机硬盘的容量为TB级,而一些大企业的数据已接近EB量级。(如:BAT原创 2020-06-12 00:03:30 · 546 阅读 · 0 评论