Hadoop学习笔记

最新推荐文章于 2024-05-06 20:41:36 发布

一直往前不要停

最新推荐文章于 2024-05-06 20:41:36 发布

阅读量210

点赞数

分类专栏： HDFS 文章标签： hadoop mapreduce 分布式计算负载均衡 zookeeper

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/mrhelicopter/article/details/71374560

版权

HDFS 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

Hadoop的几个重要的概念

HDFS

Hadoop distributie file system（Hadoop分布式文件系统）由Google封装的对一个分布式文件系统提供了一个统一的访问接口。（意思就是：对分布在不同的文件系统上的文件的访问方式封装成了hdfs）

该文件系统封装了一些统一的接口和命令

MapReduce

mapreduce是一种分布式计算框架。主要有Mapper和Reducer（个人的理解如下）更多详细的，请访问下网络找下资源

Mapper的方式主要是对于给定的文件进行相关的处理和筛选，使之满足reducer进行处理

· Reducer 讲不同的mapper处理的结果进行汇总。

Hadoop集群部署方式：

单机模式，伪分布式，分布式集群

JobTracker

个人理解是用来管理TaskTracker的一个进程，用来发布TaskTracker，可能有问题，解释，欢迎提出来

TaskTracker

TaskTracker进程是用来对每个Node进行数据处理的进程，如果有问题请提出来

NameNode

主节点，里面运行了JobTracker进程

SecondNameNode

不是NameNode备份，主要存储了HadoopMetaData的数据，最好和NameNode分开部署。

DataNode

存储数据的节点，里面有TaskTracke进程，里面还存储有hdfs的数据。

ZooKeeper

·笔者也正在学习，还不是很了解：现阶段主要的概念是用来做负载均衡的，现在zookeeper不仅仅用在hadoop中，还存在其他的各种各样的集群业务当中，用来做负载均衡

Hive

Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具，可以用来进行数据提取转化加载(ETL)，这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言，称为 HQL，它允许熟悉 SQL 的用户查询数据。同时，这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper 和 reducer 无法完成的复杂的分析工作（摘自百度百科）

一些非常好的学习资源的链接：http://www.cnblogs.com/sharpxiajun/archive/2013/06/02/3114180.html

http://sishuok.com/forum/blogPost/list/6220.html

Pig（笔者也正在学习）

Pig是一种编程语言，它简化了Hadoop常见的工作任务。Pig可加载数据、表达转换数据以及存储最终结果。Pig内置的操作使得半结构化数据变得有意义（如日志文件）。同时Pig可扩展使用Java中添加的自定义数据类型并支持数据转换。

一直往前不要停

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Hadoop学习笔记

Hadoop的几个重要的概念HDFSHadoop distributie file system（Hadoop分布式文件系统）由Google封装的对一个分布式文件系统提供了一个统一的访问接口。（意思就是：对分布在不同的文件系统上的文件的访问方式封装成了hdfs）该文件系统封装了一些统一的接口和命令MapReducemapreduce是一种分布式计算框架。主要有Mapper和Reducer（个人的理...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。