hadoop的基础知识

一、课程预备知识:Linux常用命令;java编程基础
二、Hadoop前世今生
Google 大数据技术 MapReduce、BigTable、GFS
Hadoop模仿Google大数据技术
三、Hadoop的功能和优势
1. Hadoop的定义:开源的分布式储存和分布式计算平台
HDFS:分布式文件系统,存储海量的数据
MapReduce:并行处理框架,实现任务分解和调度
2.作用:
搭建大型数据仓库,数据的储存,处理
3.优势:高扩展、低成本(靠软件)、成熟的生态圈(小工具)
4.应用:网站的搭建
四、生态系统及版本
1、家族:HDFS、MapReduce、开源工具(HIVE工具、HBASE数据库)
HBASE提供数据的随机读写和实时访问,实现对表数据的读写功能
zooKeeper:管理员
2.Hadoop版本1.2容易,2.0几的不安定
五、安装
1、准备Linux环境(windows ,pingguo,redhat)
租用阿里云,云主机,公网
2、安装JDK
2、配置Hadoop

HDFS
架构:HDFS的文件被分成块进行储存,HDFS块的默认大小64 MB,块是文件储存处理的逻辑单元
节点:NameNode和DataNode
NameNode是管理节点,存放文件元数据
(1)文件和数据块的映射表
(2)数据块与数据节点的映射表
DataNode是HDFS的工作节点,存放数据块
基本概念:块、NameNode、DataNode
HDFS中数据管理与容错
数据库模块副本
1、每个数据块3个副本,分布在两个机构内的三个节点
2、默认数据库保留三分,其中两份在一个机架上,另一个在另一个机架上
心跳检测
DateNode定期向NameNode发送心跳消息
二级NameNode(Secondary NameNode)
二级NameNode定期同步元数据映像文件和修改日志
NameNode发生故障时,备胎转正

HDFS中文件读写的流程
1、文件读取请求
2、返回元数据
3、读取Blocks
HDFS写入文件的流程
1、文件拆分成块
2、返回DataNodes
3、写入Blocks
4、流水线复制
5、更新元数据
HDFS的特点
1、数据冗余,硬件容错
2、流式的数据访问(无法重新修改)
3、存储大文件
4、适用性和局限性
适合数据批量读写,吞吐量高;适合一次写入多次读取,顺序读写
不适合交互式应用,低延迟很难满足(数据库);不支持多用户并发写相同文件
HDFS命令行操作演示
Shell
MapReduce原理
Map:一个大任务分成多个小的子任务(任务化小)
数据交换
Reduce:并行执行后,合并结果
EG:100GB的网站访问日志文件,找出访问次数最多的IP地址
1、日志切分
2、统计IP出现次数
3、交换
4、Reduce
Mapreduce的运行流程
基本概念
Job&Task(job分成多个task,task分成MapTask和ReduceTask)
JobTracker
1、作业调度
2、分配任务、监控任务执行进度
3、监控TaskTracker的状态
TaskTracker
1、执行任务
2、汇报任务状态
MapReduce的容错机制
1、重复执行(4次)
2、推测执行
Map端口执行,某一个TaskTracker出现缺口,会用另一个TaskerTracker来补充,比较哪一个先完成
MapReduce的应用案例
WordCount的单词计数
计算文件中出现的每个单词的频数,输入结果按照字母顺序进行排序
Eg:
输入: 输出:
Hello world bye world bye 3
Hello hadoop bye hadoop hello 3
Bye hadoop hello hadoop hadoop 4
World 2
Map 过程:切分输入过程,统计,reduce
worldcount的源代码

WorldCount
1、编写WordCount.java,包含Mapper类和Reducer类
2、编译WordCount.java,javac-classpath
3、打包 jar-cvf WordCount.jar classes/*
4、作业提交 hadoop jar WordCount.jar WordCount input output

利用MapReduce进行排序
对数据分块标记

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值