![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hadoop的认知之路
文章平均质量分 86
fort110
这个作者很懒,什么都没留下…
展开
-
初识hadoop
1.什么是hadoophadoop是一个可靠(reliable)的、可扩展(scalable)的分布式(distributed)的开源计算框架!Apache hadoop 允许分布式处理的一个软件,并且跨越在集群的机器上(意思是数据分开存储在各个节点之上的),并且使用一种简单的编程模型。可以从单个数据信号扩展到成百上千台机器上。2.hadoop主要包含了哪些模块hadoop common(通用包)...原创 2018-02-10 11:45:20 · 169 阅读 · 0 评论 -
初识spark、maven仓库环境和scala环境
原创 2018-02-23 17:29:37 · 538 阅读 · 0 评论 -
分布式计算框架MapReduce
1.JobTracker:JT作业的管理者将作业分解成一堆的任务:Task(MapTask和ReduceTask)将任务分配给TaskTracker运行作业的监控、容错处理心跳检测:在一定的时间间隔内,JT没有收到TT的心跳信息,TT可能挂了,TT上运行的任务会被指派到其他TT上去执行2.TaskTrack:TT任务的执行者在TT上执行我们的Task与JT进行交互:执行/启动/停止作业,发送心跳信...原创 2018-02-20 11:26:55 · 337 阅读 · 0 评论 -
分布式计算框架mapreduce
从wordcount来学习:统计文件中的单词书目1.读取 2.拆分 3.读取split中的数据 4.每一行交由map处理 5.结果由partition分区交由对应的reduce处理 6.通过outputformat进行输出写到文件系统上面...原创 2018-02-20 09:58:03 · 268 阅读 · 0 评论 -
YARN的环境搭建
配置yarn Yarn是hadoop的资源调度器,可以配置mapreduce job基于yarn运行。 1)配置etc/hadoop/mapred-site.xml(告诉mapreduce框架,最终执行时跑的位置是yarn上)<configuration> <property> <name>mapreduce.framework...原创 2018-02-19 18:39:26 · 298 阅读 · 0 评论 -
资源调度框架YARN简述
YARN的产生背景(通俗讲就是需要在不同时间使用不同的工具来处理数据,需要一个工具来调度,这个工具就是yarn):YARN的架构:重要的组件介绍:1)resource manager(RM):整个集群同一时间提供服务的RM只有一个(公司中会有一个备用的),负责集群资源的统一管理处理客户端(client)的请求:提交一个作业、杀死一个作业监控NM,一旦NM节点挂掉,上面运行的任务如何处理要告诉AM来...原创 2018-02-19 18:11:10 · 597 阅读 · 0 评论 -
HDFS的读写过程简述
主要的角色:客户端:负责发起或提交读写请求(如果往HDFS上存储数据或获取数据,就要告诉客户端)。namenode:HDFS的核心负责全局协调,做任何事都要向这里汇报,和把控所有的请求。datanode:数量不定,负责数据的 存储。把数据写到HDFS的集群的过程1.用户向客户端请求服务 请求角色:1.hdfs shell2.JAVA API ...原创 2018-02-19 15:57:57 · 5357 阅读 · 0 评论 -
HDFS shell 常用命令的使用
基础命令:hadoop fs +命令行递归展示文件:hadoop fs -lsr /原创 2018-02-15 11:18:24 · 221 阅读 · 0 评论 -
hadoop伪分布式安装步骤
http://blog.csdn.net/weixin_39216383/article/details/78953236配置http://blog.csdn.net/ye1142262478/article/details/50628643修改主机名1.安装linux6.4版本2.安装jdk7u79版本解压安装包:* -C为指定目录配置javahome:使环境变量生效:source ~/.bas...原创 2018-02-15 09:23:35 · 301 阅读 · 0 评论 -
细读HDFS的框架结构
传统分布式文件:什么是HDFS?要点:1.1个master带N个slaves datenod管理数据的存储namenod(nn)负责文件系统的读写操作datenod(dn)负责块的一些操作转载 2018-02-12 16:41:06 · 396 阅读 · 0 评论 -
hadoop常用版本和选型
hadoop常用版本和选型apache hadoop 原生的,工作生产不建议CDH:优点:网页安装配置简单和spark合作完美(占30%) 缺点:安装框架不开源 www.cloudera.com/cdh5/cdh/5/使用版本:HDP:开源(占60%),安装费劲...原创 2018-02-10 17:49:28 · 2621 阅读 · 0 评论 -
hadoop核心组件分布式文件系统HDFS、资源调度管理系统YARN、分布式计算框架MapReduce
分布式存储系统的第一印象HDFS是基于谷歌的GFS的克隆版本HDFS的特点:可扩展性(当节点不够添加一台机器就可以了),可容错的(多副本的方式可存储的),海量数据的存储将上传文件切分成指定大小的数据块(128M)并以多副本的存储在多个机器上(处理对象任然是文件,具体的切分、多副本和容错由hadoop完成)fiflename文件名称numreplicas数据重复次数block-id被重复的数据编号资...原创 2018-02-10 12:08:54 · 1086 阅读 · 0 评论 -
数据可视化的流程
原创 2018-02-21 02:56:10 · 1520 阅读 · 0 评论