Hadoop学习笔记

Hadoop的几个重要的概念

HDFS

Hadoop distributie file system(Hadoop分布式文件系统)由Google封装的对一个分布式文件系统提供了一个统一的访问接口。(意思就是:对分布在不同的文件系统上的文件的访问方式封装成了hdfs)

该文件系统封装了一些统一的接口和命令

MapReduce

mapreduce是一种分布式计算框架。主要有Mapper和Reducer(个人的理解如下)更多详细的,请访问下网络找下资源

Mapper的方式主要是对于给定的文件进行相关的处理和筛选,使之满足reducer进行处理

· Reducer 讲不同的mapper处理的结果进行汇总。

Hadoop集群部署方式:

单机模式,伪分布式,分布式集群

JobTracker

个人理解是用来管理TaskTracker的一个进程,用来发布TaskTracker,可能有问题,解释,欢迎提出来

TaskTracker

TaskTracker进程是用来对每个Node进行数据处理的进程,如果有问题请提出来

NameNode

主节点,里面运行了JobTracker进程

SecondNameNode

不是NameNode备份,主要存储了HadoopMetaData的数据,最好和NameNode分开部署。

DataNode

存储数据的节点,里面有TaskTracke进程,里面还存储有hdfs的数据。

ZooKeeper

·笔者也正在学习,还不是很了解:现阶段主要的概念是用来做负载均衡的,现在zookeeper不仅仅用在hadoop中,还存在其他的各种各样的集群业务当中,用来做负载均衡

Hive

Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 HQL,它允许熟悉 SQL 的用户查询数据。同时,这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper 和 reducer 无法完成的复杂的分析工作(摘自百度百科)

一些非常好的学习资源的链接:http://www.cnblogs.com/sharpxiajun/archive/2013/06/02/3114180.html

http://sishuok.com/forum/blogPost/list/6220.html

Pig(笔者也正在学习)

Pig是一种编程语言,它简化了Hadoop常见的工作任务。Pig可加载数据、表达转换数据以及存储最终结果。Pig内置的操作使得半结构化数据变得有意义(如日志文件)。同时Pig可扩展使用Java中添加的自定义数据类型并支持数据转换。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值