Hadoop学习笔记(一)

什么是hadoop

hadoop是一个能对大量数据进行处理的分布式计算平台,以一种可靠,高效,可伸缩的方式进行数据处理

hadoop的优点

  1. 高可靠性 ,它对可能出现的错误都进行了处理,因此数据会保存多个副本,保证了数据的可靠性;
  2. 高效性,由于hadoop是一个并行的软件系统,通过并行运算,加快处理速度;
  3. 可伸缩性,能够处理PB级数据;

hadoop核心

文件系统:HDFS(Hadoop Distributed File System):hadoop的分布式文件系统,HDFS是一个高容错系统,适合部署在廉价的机器上,同时HDFS还能提供高吞吐量的数据访问,非常适合在大规模数据集上的使用,采用流的方式来进行文件读取操作

计算系统:MapReduce:MapReduce源于分治算法思想,根据google的论文实现的,基于集群的高性能并行计算平台,它提供了一个庞大但设计精良的并行计算软件框架,能自动完成计算任务的并行化处理,自动划分计算数据和计算任务,在集群节点上自动分配和执行任务以及收集计算结果.
它借助于函数式程序设计语言Lisp的设计思想,提供了一种简便的并行程序设计方法,用Map和Reduce两个函数编程实现基本的并行计算任务,提供了抽象的操作和并行编程接口,以简单方便地完成大规模数据的编程和计算处理.

hadoop运行环境

1. 操作系统

Linux及其衍生版,我使用的是centOS 7,centOS 7命令与linux常规命令出入较大,推荐还是使用Linux别的衍生版本

2. java环境

jdk1.7及以上,不推荐java 9以上版本,java 9改动较大跟大量框架兼容性较差,至少我学的这会儿是…

3. hadoop版本

我使用的是hadoop 2.7.1

使用工具

1. 远程连接

SCRT:一款很好用的远程连接工具,附带FTP可视化上传工具,左划复制功能简直不要太友好,还支持克隆连接,一键FTP,目前我使用过的最好用的远程连接软件

2. 虚拟机

VMware:用来让你假装自己有很多台机子的软件! 就不多介绍了

以上就是开始安装之前需要储备的所有货了~~

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值