Hadoop大数据平台架构与实践--基础篇(视频笔记)

最新推荐文章于 2019-05-03 21:59:37 发布

兔子鱼兮

最新推荐文章于 2019-05-03 21:59:37 发布

阅读量280

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u010819416/article/details/81607811

版权

idea开发Hadoop程序
1-2 Hadoop前世今生
变化1：成本降低，使用普通pc机
变化2：硬件故障是常态，通过软件容错
变化3：简化并行分布式计算

1-3 Hadoop功能和优势
开源的、分布式存储、分布式计算
核心组成：
HDFS
MapReduce

搭建大型数据仓库，处理PB级数据。
搜索引擎、商业智能、日志分析、数据挖掘。

优势：
高扩展、低成本、成熟的生态圈

1-4 Hadoop生态系统及版本
Hive : 写sql，然后自动将sql转MapReduce。
HBase:
zookeeper:

2-1 Hadoop安装获取Linux系统
云主机

2-2 安装jdk

2-3 配置Hadoop

3-1 基本概念
HDFS
* 块（Block）
文件被分为块进行存储
块大小默认64MB
块是文件存储和处理的逻辑单元
* NameNode
管理节点，存储元数据：
1）文件与数据块的映射表
2）数据块与数据节点的映射表
* DataNode
工作节点，存放数据块

3-2 数据管理的策略
* 数据库副本
每个数据块3个副本，分布在两个机架内的三个节点。
* 心跳检测
DataNode定期向NameNode发送心跳信息。
* 二级NameNode
二级NameNode定期同步元数据映像文件和修改日志，NameNode发生故障时，备胎转正

3-3 HDFS文件中文件的读写操作
读取文件流程：
1、文件读取请求
2、返回元数据
3、读取Blocks

写文件流程：
1、文件拆分成块
2、返回DataNodes
3、写入Blocks
4、流水线复制
5、更新元数据

3-4 HDFS特点
1、数据冗余、硬件容错
2、流式的数据访问（写一次、读多次）
3、适合存储大文件

3-5 HDFS使用
HDFS命令行
hadoop fs

4-1 MapReduce原理
分而治之的思想。

4-2 MapReduce的运行流程
基本概念：
*Job & Task
* JobTracker
* TaskTracker
这里写图片描述

MapReduce的容错机制：
1、重复执行、4次
2、推测执行

5-1 WordCount单词计数

5-3
1、编写WordCount.java，包含Mapper类和Reducer类
2、编译WordCount.java
javac -classpath
3、打包jar -cvf WordCount.jar classes/*
4、作业提交
hadoop jar WordCount.jar WordCount input output

5-4 排序

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Hadoop大数据平台架构与实践--基础篇(视频笔记)

1-2 Hadoop前世今生变化1：成本降低，使用普通pc机变化2：硬件故障是常态，通过软件容错变化3：简化并行分布式计算1-3 Hadoop功能和优势开源的、分布式存储、分布式计算核心组成： HDFS MapReduce搭建大型数据仓库，处理PB级数据。搜索引擎、商业智能、日志分析、数据挖掘。优势：高扩展、低成本、成熟的生态圈1-4 Hadoop生...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。