王家林的81门一站式云计算分布式大数据&移动互联网解决方案课程第二门课程:云计算分布式大数据Hadoop数据库管理员企业级动手实践

一:课程介绍

   数据库管理人员如何管理分布式的海量数据,是云计算时代的数据库从业人员面临的核心问题之一,Hadoop提出了解决方案。

   本课程从数据库管理人员与系统管理人员的职业角度出发,从动手搭建Hadoop集群环境开始,涉及Hadoop集群的配置、维护、管理、监控、运维、测试、优化等主题,并细致剖析Hive数据仓库集群和优化等主题,帮助传统的数据库管理人员和系统管理人员轻松使用Hadoop架构大规模的数据。

二:课程特色

1,    深入理解Hadoop技术架构;

2,    彻底全面清晰的理解Hadoop运作机制;

3,    能够独立规划及部署生产环境的Hadoop集群;

4,    掌握Hadoop基本运维思路和方法;

5,    对Hadoop集群进行管理和优化;

 

三:适合对象:

   数据库管理员(DBA)

   公司的系统管理员;

   想转型的DBA;

四:基础要求

   了解Linux系统;

   了解网络;

   了解 shell sql python 等脚本语言的一种;  

五:讲师简介

Hadoop源码级专家,曾负责某知名公司的类Hadoop框架开发工作,专注于Hadoop一站式解决方案的提供,同时也是云计算分布式大数据处理的最早实践者之一,Hadoop的狂热爱好者,不断的在实践中用Hadoop解决不同领域的大数据的高效处理和存储,现在正负责Hadoop在搜索引擎中的研发中国电信的多次Hadoop培训,花旗银行的Hadoop内训,金立手机的Hadoop内训等,著有《云计算分布式大数据Hadoop实战高手之路---从零开始》《云计算分布式大数据Hadoop实战高手之路---高手崛起》《云计算分布式大数据Hadoop。实战高手之路---高手之巅》等;

Android架构师、高级工程师、咨询顾问、培训专家;     

通晓Android、HTML5、Hadoop,迷恋英语播音和健美;

致力于Android、HTML5、Hadoop的软、硬、云整合的一站式解决方案;

国内最早(2007年)从事于Android系统移植、软硬整合、框架修改、应用程序软件开发以及Android系统测试和应用软件测试的技术专家和技术创业人员之一。

HTML5技术领域的最早实践者(2009年)之一,成功为多个机构实现多款自定义HTML5浏览器,参与某知名的HTML5浏览器研发;

超过10本的IT畅销书作者;

  

 

六:培训内容

 

时间

内容

备注

第一天 (集群安装和管理)

1个主题:Hadoop的来源和动机

1.传统大规模系统存在的问题

2.对一种新的解决方案的需求

 

2个主题:Hadoop安装和部署准备

1.  Hadoop系统模块组件概述

2.  Hadoop试验集群的部署结构

3.  Hadoop 安装依赖关系

4.       Hadoop 生产环境的部署结构

 

3个主题:Hadoop集群安装和部署

1.  Red hat Linux基础环境搭建 上机实验

2.  Hadoop 单机系统版本 安装配置 上机实验

3.  Hadoop 集群系统版本 安装和启动配置 上机实验

4.  Hadoop 集群异常Debug 方法

5.  Hadoop 集群简单测试方法

6.  使用 Hadoop MapReduce Streaming 快速测试系统

 

4个主题:Hadoop组件详解

1.  Hadoop HDFS 基本结构

2.  Hadoop HDFS 副本存放策略

3.  Hadoop NameNode 详解

4.  Hadoop SecondaryNameNode 详解

5.  Hadoop DataNode 详解

6.  Hadoop JobTracker 详解

7.  Hadoop TaskTracker 详解

 

5个主题:Hadoop集群配置详解

1.  Hadoop core-site,hdfs-site,mapred-site 配置详解

2. Hadoop 高可用配置方法

 

时间

内容

备注

 

 

 

 

 

 

 

 

 

 

 

 

 

 

第二天(集群优化和管理)

1个主题:Hadoop集群配置:机架感知,开启压缩和任务均衡

1.  Hadoop 集群安装和开启LZO压缩

2.  Hadoop 配置集群具备机架感知

3.  Hadoop 集群开启公平任务调度器

4.  Hadoop 集群开启能力任务调度器

 

2个主题:Hadoop 集群维护与管理

1.  查看集群状态

2.  HDFS数据管理

3.  Mapreduce 任务管理

4.  HDFS安全模式

5.  模拟集群Namenode,jobtrack失效

6.  添加删除节点

7.  数据平衡

8.  文件数据跨集群拷贝

9.       集群升级

 

3个主题:Hadoop 集群规划和测试

1.  集群规划(硬件,系统,网络)

2. 集群性能测试

 

4个主题:Hadoop 集群监控和运维

1. 使用Ganglia 监控Hadoop集群

2. 使用Cacti 监控操作系统

 

5个主题:Hadoop HDFS高可用

1.  Hadoop 元数据NFS备份方案

2. Hadoop SecondaryNameNode备份方案

3. Hadoop CheckpointNode备份方案

4. Hadoop BackupNode备份方案

5. Hadoop Cloudera HA Namenode 方案

 

时间

内容

备注

第三天(Hive数据仓库)

1个主题:Hive仓库集群

1.  Hive的作用和原理说明

2.  仓库和传统数据仓库的协作关系

3.  Hadoop/Hive仓库数据数据流

4.  Hive 部署和安装

5.  Hive Cli 的基本用法

6.  HQL基本语法

 

2个主题:Hive仓库集群高级

1.  使用JDBC 连接Hive进行查询和分析

2.  使用正则表达式加载数据

3.  HQL高级语法

4.  编写UDF函数

5.       编写UDAF自定义函数

 

3个主题:Hive仓库优化

1.  使用Hive分区优化查询

2.  使用Lzo压缩优化数据存储容量

3.  HiveServer HA (使用haproxy提高HiveServer可用性)

4.  编写Hive自定义MapReduce脚本优化查询

5.  Hive数据倾斜和查询性能优化

 

4个主题:Hive仓库外围系统

1.  使用Sqoop进行数据分析

2.  使用oozie配置工作流

3.  phpHiveAdmin 安装和使用

 

 

 

 

阅读更多
想对作者说点什么? 我来说一句

构建Hadoop分布式集群环境

2013年06月14日 2.05MB 下载

没有更多推荐了,返回首页

不良信息举报

王家林的81门一站式云计算分布式大数据&移动互联网解决方案课程第二门课程:云计算分布式大数据Hadoop数据库管理员企业级动手实践

最多只允许输入30个字

加入CSDN,享受更精准的内容推荐,与500万程序员共同成长!
关闭
关闭