google大数据技术
mapreduce bigtable GFS
hadoop
一个模仿google大数据技术的开源实现
开源的 apache
分布式存储 + 分布式计算平台
核心:
HDFS 分布式文件系统 存储海量数据
MapReduce 并行处理框架 实现任务分解和调度
用途
搭建大型数据仓库 pb级数据存储 处理 分析 等业务
开源工具:
Hive :降低使用Hadoop的使用门槛
Hbase 提供数据的读写和实时访问,实现对表数据的读写功能
zookeeper 管理hadoop节点功能
版本:
1.X 2.X
1.X稳定
2.X不稳定
新手使用1.2
安装:
1.准备linux环境
2.安装JDK
3.配置Hadoop
通过网络租用 云主机
阿里云 uninteStack 等
HDFS 文件系统
HDFS的文件被分成块进行存储
HDFS块的默认大小为64m
块是文件存储处理的逻辑单元
两类节点
namenode datanode
namenode 管理节点,存放文件元数据
datanode HDFS工作节点,存放数据块
数据块副本:每个数据块3个副本 分别存放在2个机架上
HDFS特点
1.数据冗余 硬件容错
2.流式的数据访问
3.存储大文件
适用性和局限性
适合数据批量读写,吞吐量高
不适合交互应用,低延迟很难满足
适合一次写入 多次读取 顺序读写
不支持多用户并发写相同文件
mapreduce
分而治之,将一个大任务分成多个小的子任务(map),并行执行后合并结果。
基本概念
Job & Task
Jobtracker
Tasktracker
MapReduce的容错机制
1.重复执行
2.推测执行