Hadoop大数据平台架构与实践--基础篇(视频笔记)

idea开发Hadoop程序
1-2 Hadoop前世今生
变化1:成本降低,使用普通pc机
变化2:硬件故障是常态,通过软件容错
变化3:简化并行分布式计算

1-3 Hadoop功能和优势
开源的、分布式存储、分布式计算
核心组成:
HDFS
MapReduce

搭建大型数据仓库,处理PB级数据。
搜索引擎、商业智能、日志分析、数据挖掘。

优势:
高扩展、低成本、成熟的生态圈

1-4 Hadoop生态系统及版本
Hive : 写sql,然后自动将sql转MapReduce。
HBase:
zookeeper:

2-1 Hadoop安装获取Linux系统
云主机

2-2 安装jdk

2-3 配置Hadoop

3-1 基本概念
HDFS
* 块(Block)
文件被分为块进行存储
块大小默认64MB
块是文件存储和处理的逻辑单元
* NameNode
管理节点,存储元数据:
1)文件与数据块的映射表
2)数据块与数据节点的映射表
* DataNode
工作节点,存放数据块

3-2 数据管理的策略
* 数据库副本
每个数据块3个副本,分布在两个机架内的三个节点。
* 心跳检测
DataNode定期向NameNode发送心跳信息。
* 二级NameNode
二级NameNode定期同步元数据映像文件和修改日志,NameNode发生故障时,备胎转正

3-3 HDFS文件中文件的读写操作
读取文件流程:
1、文件读取请求
2、返回元数据
3、读取Blocks

写文件流程:
1、文件拆分成块
2、返回DataNodes
3、写入Blocks
4、流水线复制
5、更新元数据

3-4 HDFS特点
1、数据冗余、硬件容错
2、流式的数据访问(写一次、读多次)
3、适合存储大文件

3-5 HDFS使用
HDFS命令行
hadoop fs

4-1 MapReduce原理
分而治之的思想。

4-2 MapReduce的运行流程
基本概念:
*Job & Task
* JobTracker
* TaskTracker
这里写图片描述

MapReduce的容错机制:
1、重复执行、4次
2、推测执行

5-1 WordCount单词计数

5-3
1、编写WordCount.java,包含Mapper类和Reducer类
2、编译WordCount.java
javac -classpath
3、打包jar -cvf WordCount.jar classes/*
4、作业提交
hadoop jar WordCount.jar WordCount input output

5-4 排序

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值