![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hadoop
文章平均质量分 50
sz2024
一个人可以走的很快,但是只有一群人才能走的更远
展开
-
01hadoop简介
01Hadoop简介什么是大数据传统数据存储1.关系型数据库2.word、excel、ppt等文件存储方式大数据的特点1.数据量大;2.数据种类多;3.数据增长速度快;4.价值密度低大数据的本质通过一系列的数据处理框架对大数据进行分析处理,得到有价值的数据;数据分析的流程1.数据源(rdbms,nginx等日志文件,历史数据文件)1.格式化的数据2.半格式化的数据,半格式化的数据需要原创 2017-09-05 00:32:08 · 161 阅读 · 0 评论 -
02hadoop的HDFS
02Hadoop的HDFSHadoop的HDFS(Hadoop的分布式文件存储系统)1.分布式和集中式的区别1.集中式:单台机器,资源有限,处理任务需要消耗较大的资源;2.分布式:多台机器,资源是总和,将任务切分,分发给每台机器执行;2.什么是分布式文件系统多台机器共同组建了一个文件系统;3.分块存储1.将某个文件按照存储块(块相当于文件的最小存储单元)的大小进行切分,切分成不同的块,将不同块原创 2017-09-05 00:32:47 · 150 阅读 · 0 评论 -
03hadoop的MapReduce
03Hadoop的MapReduceHadoop中的MapReduce作用提供分布式的计算模型实现思想分而治之组成1.Map作用:负责将任务进行切分,当map拿到一个job(即任务进程)之后会将这个任务进程拆分成多个小任务(即task任务),然后将每个task任务分发到不同的节点上运行 1.mapreduce程序中task任务分为两种maptask和reducetask2.shuffl原创 2017-09-05 00:33:07 · 186 阅读 · 0 评论 -
04hadoop的Yarn
04Hadoop的Yarn作用任务的调度和资源的管理主从架构主节点:ResourceManager作用:负责接收客户端任务的请求和资源的管理,MapReduce程序在运行任何一个任务的时候都需要资源,在运行MapReduce任务的时候需要CPU、内存等资源都会跟ResourceManager申请,当MapReduce程序要运行一个任务时会向ResourceManager发送运行任务的请求,Reso原创 2017-09-05 00:33:47 · 249 阅读 · 0 评论 -
05hadoop的安装部署及伪分布式搭建
05Hadoop的安装部署搭建模式本地模式:一般用于MapReduce程序的测试1.默认读取的是本地的数据2.没有hdfs文件系统3.没有yarn进行资源的管理和任务的调度,只有task任务,直接运行在jvm中伪分布式模式:单个节点的分布式,用于hadoop集群模式的测试,并且此时hdfs和yarn都运行在一台机器上完全分布式模式:多台机器构建多个节点,一般是生产环境1.一般hdfs中Data原创 2017-09-05 00:36:00 · 258 阅读 · 0 评论