hadoop

最新推荐文章于 2023-06-29 17:17:05 发布

chidan4048

最新推荐文章于 2023-06-29 17:17:05 发布

阅读量92

点赞数

文章标签：数据结构与算法大数据

原文链接：https://my.oschina.net/u/3195939/blog/1031058

版权

hadoop 是一个能对大数据进行分布式处理的软件框架，在集群上能充分的发挥出其出色的能力分布式存储和分布式计算上面都使用了，主从（Master/Slave）

HDFS 分布式的文件存储系统，主要负责各个节点上的数据存储，并实现高吞吐率的数据读写

Hadoop，把应用程序分割成很小的工作单元，并把这些工作单元放到任何的集群节点上执行，在MapReDuce( MapReduce是一种编程模型，用于大规模数据集（大于1TB）的并行运算，是一个基于集群的高性能并发计算平台，是一个并行计算和运行软件的框架，是一个并行程序设计模型与方法 ),所以只有集群才能体现出Hadoop的高新能

Hadoop，把应用程序分割成很小的工作单元，并把这些工作单元放到任何的集群节点上执行 Hadoop 要想完整的运行起来，里面要启动一些相关程序，不同的程序扮演着不同的角色下面是角色介绍 NameNode 是HDFS的守护程序，负责记录文件是如何分割成数据块的，以及这些数据存储的节点位置，主要功能是对内存及I/O进行集中的管理 NameNode在整个集群中是单点的，如果NameNode宕机了，则整个hadoop就无法正常运行了

DataNode,每一个hadopp都会在后台运行一个DataNode程序，负责把HDFS里面的数据块读取到本地的文件系统。当客户端要对数据进行读写操作时，先由NameNode告诉客户端去哪个DataNode上操作，然后客户端直接与DataNode通信，操作数据,数据的存储节点和数据的计算节点（TaskTracker运行在datanode）

Secondary NameNode 用来监控HDFS的一个辅助程序，会保存NameNode的快照，可以让NameNode宕机时的损失降到最低

JobTracker 用来连接应用程序和Hadoop，同事监控所有运行的Task ,不同的task分配不同的节点，每一个Hadoop集群只有一个JobTracker,一般运行在集群的Master节点上 TaskTracker 负责与存储数据的DataNode相结合，统领MapReduce工作，可以与JobTracker交互，如果JobTracker无法准时的获取到TaskTracker提交的信息，则JobTasker就认为，此TaskTracker已失效，会把任务分配到另外的节点上

Hadoop子项目 Hadoop Common 为Hadoop的各个子项目提供各个工具 HDFS 分布式的文件存储系统，主要负责各个节点上的数据存储，并实现高吞吐率的数据读写 MapReduce 是一种编程模型，用于大规模数据集（大于1TB）的并行运算，是一个基于集群的高性能并发计算平台，是一个并行计算和运行软件的框架，是一个并行程序设计模型与方法相关项目 Hama:为科学计算提供的一个基于整体同步并行计算技术的分布式框架 Hbase:apache的一个顶级项目，基于列的存储形式的分布式数据库 Hive: 提供数据摘要和数据查询的数据仓储 Pig:实在mapReduce上构建的一种高级的数据流语言 Zookeeper: 注册中心，用于解决分布式数据一致性问题，管理服务，同步服务

以下都是hadoop2.0主版本 hadoop namenode -format

start-all.sh stop-all.sh hadoop dfs -put 文件路径 /放入文件夹名称 hadoop jar -/users/ems/BigData/hadoop-2.7.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar wordcount /in /out hadoop dfs -ls / //列出hdfs下面文件夹 hadoop dfs -ls /in //列出hdfs中 in文件下面的文档 hadoop dfs -get /in getin //将hdfs中的in文件夹复制到本地 hadoop dfs -rmr /out //删除hdfs中名字为out的文件夹 hadoop dfsadmin-safemode get //返回hadoop safemode的状态 hadoop dfsadmin-safemode enter //进入safemode 模式 hadoop dfsadmin-safemode leave //强制NameNode 离开safemode

NameNode 50070 dfs.namenode.http-address http服务的端口 ResourceManager 8088 yarn.resourcemanager.webapp.address http服务端口 /users/ems/BigData/hadoop-2.7.3 /usr/local/hadoop/2.6.0/libexec/share/hadoop/mapreduce

MapReduce 分布处理 map 阶段将数据分割成固定大小的片段，得到计算的中间结果数目可以配置默认值为2

reduce 将得到的中间结果，合并成最后的数据结果数目可以配置默认值为2 reduce 在数目配置的时候，通常要小于reduce slots(资源池的概念，每一个map 和reduce执行时都必须获得一个slots才可以) 数目，防止在有reduce损坏的时候，还有slots可以分配不影响任务的执行时间

倒排索引：文档检索中最常用的数据结构被广泛的用于全文搜索引擎。主要用来存储某个单词和词组，来标记一个文档或者一组文档所在的存储位置，这种根据文档内容来查询文档，与根据文档来查询文档内容操作相反因此倒排，索引就是单词或者一组词组

TextInputFormat 对输入文件进行处理 OutPutFormat 对输出数据进行处理

转载于:https://my.oschina.net/u/3195939/blog/1031058

chidan4048

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
hadoop

hadoop 是一个能对大数据进行分布式处理的软件框架，在集群上能充分的发挥出其出色的能力分布式存储和分布式计算上面都使用了，主从（Master/Slave）HDFS 分布式的文件存储系统，主要负责各个节点上的数据存储，并实现高吞吐率的数据读写Hadoop，把应用程序分割成很小的工作单元...
复制链接

扫一扫

hadoop

“相关推荐”对你有帮助么？