Big Data (1)

第一天

000_课程大纲介绍

第一个专题

1、Linux系统环境搭建和基本命令使用

第二至六个专题

2、Hadoop本地(单机)模式和伪分布式模式安装

Hadoop1.x理论知识,脚本体系,安装模式,认知HDFS文件系统,运行Mapreduce程序wordCout,如何查看Hadoop源码,Hadoop1.x包的结构等等

3、HDFS的体系结构、Shell操作、JavaAPI使用和应用案例

深入讲解HDFS相关内容,包括HDFS架构与设计,优缺点,如何存储文件,如何访问HDFS文件系统,包括:通过HDFS shell命令行,第二种通过Java API方式进行访问;另外讲解一些企业中的小案例,比如小文件的存储处理,类似百度网盘的分析(使用HDFS)等等。[3-4次课]

4、MapReduce入门、框架原理、深入学习和相关MR面试题

深入讲解MR,架构体系,执行流程,MR执行细节,讲解MR编写(WordCount):数据类型、输入输出格式、Combine、Partitioner、Sort和Group,插入企业中MR简单实用案例。7-8个课时

5、Hadoop?

6、Hadoop集群安装管理、NameNode安全模式和Hadoop1.x串讲复习

{属于hadoop运维工程师的课程,集群的安装部署[建立在为分布式安装基础上]}

->NN SafeMode、Hadoop管理员命令的使用。添加几点(机器)、卸载节点(机器)、监控Hadoop集群[3次课时]

第七至十个专题

7、ZooKeeper集群安装、回顾Hbase和mySql5.1安装与基本使用

主要为HBase和Hive基础理论讲解,zk协调HBase,mysql作为Hive元数据管理。【2次课时】

8、Hbase入门、存储原理、Shell命令、JavaAPI操作和应用案例

分布式数据库(NoSQL数据库),类似于Oracle数据库,存储几十亿行数据,上万列数据。准实时查询,与MR很好的集成,进行技术处理数据。体系架构、访问(shell和API)、MapReduce、管理,深入讲解,【4-5个课时】

9、Hive安装、配置元数据、HiveQL语句学习和应用案例

串讲复习HDFS、Mapreduce、HBase、Hive和Sqoop安装与数据导入导出;

->整体复习,串讲Hadoop、HBase和Hive,在企业中如何使用,如何考虑,结合三者进行考虑。Sqoop用于数据的导入导出,将关系型数据库中的数据与HBase和Hive之间的相互导入导出。【3此课时】

10、答疑总结、任务调度Azkaban安装和使用

进行整个Hadoop1.x课程的答疑,与项目的讲解[重点是项目讲解]。讲解任务调度框架,如何管理Job、管理Hive【3此课时】

第十一个专题

11、Hadoop2.2.0介绍、集群安装和商业版Hadoop介绍

Hadoop2.x介绍,Hadoop2.4为基础讲解,理论讲解;与Hadoop1.x不同,有点哪些?

安装:分布式安装,HDFS和MR程序测试。

介绍商业版的Hadoop:对apache开源Hadoop版本包括:CDH Hortonworrsk,Intel,华为,IBM[这些需要自学];【2次课时】

第十二个专题

12、Cloudera Hadoop介绍,CM4.8安装和部署CDH4.5:商业版Hadoop CDH的介绍,以及管理工具CM的安装

 

001_Linux系统基本知识说明和启动Linux虚拟机

002_配置虚拟机IP地址和如何使用远程工具SecureCRT

003_Linux 环境下基本命令使用及Linux系统中文件的类型和权限

004_Linux 环境下基本命令讲解二

005_Linux 系统远程FTP工具与桌面工具XManager使用和培养三大能力

006_Linux 系统基本命令和基本配置的复习讲解

3.2.7 分析启动脚本

3.2.8 Hadoop1.X目录结构

如下图

 

通过查看readme可以通过提供的地址,进入wiki(学习Hadoop非常重要的一个入口),可以进行相关信息的查看。

 

007_What is Apache Hadoop讲解

008_Hadoop 的发展史和版本发展与区别

009_Hadoop 1.x 生态系统介绍讲解

1、对Apache Hadoop生态系统的认知(Hadoop1.x和Hadop2.x)




注意:

l ETL:提取 -> 转换 -> 加载

从数据库中获取数据,并进行一系列的数据清理和清洗筛选,将合格的数据进行转换成一定的格式数据进行存储,将格式化的数据存储到HDFS文件系统上,以供计算框架进行数据分析和挖掘。

格式化数据:

|- TSV格式,每行数据的每列之间以制表符(\t)进行分割;

|- CSV格式,每行数据的每列之间以(逗号)进行分割;

l Sqoop:

将关系型数据库中的数据与HDFS(HDFS文件,HBase中表,Hive中的表)上的数据进行相互导入导出。

l Flume:

收集各个应用系统和框架的日志,并将其放到HDFS分布式文件系统的响应指定目录下。

l Ambari

安装、部署、配置和管理工具,后面会讲比它更好用更强大的工具!


注意:

Hadoop1.x与Hadoop2.x生态的同与不同:

ü 增加了YARN

ü 改进了Pig->Pig2

ü Tez以及Storm

 

展望,后续会议2.x版本为主,-->Spark

 

2、Apache Hadoop1.x框架架构原理的初步认识

 

对于分布式系统和框架的架构来说,一般分为两部分:

1) :管理层(用于管理应用层的)

2) :应用层()

HDFS,分布式文件系统 说明:

l NameNode,属于管理层,用于管理数据的存储

l SecondaryNameNode,也属于管理层,辅助NameNode进行管理

l DataNode:属于应用层,用于进行数据的存储,被NameNode进行管理,要定时向NmaeNode进行工作汇报,执行NameNode分配分发的任务。

MapReduce,分布式的并行计算框架,

l JobTracker:属于管理层,管理集群资源和对任务进行资源调度,监控任务的执行。

l TaskTracker:属于应用层,执行JboTracker分配分发的任务,并向JobTracker进行汇报。

另,Apache Hadooop守护进行作用:

Ø NameNodwe是主节点,存储文件的元素据如文件名,文件目录结构,文件属性(生成时间,副本数,文件权限),以及每个文件的块列表和块所在DataNode等

Ø DataNode,在本地文件系统存储文件块数据,以及块数据的校验和。

Ø Secondary NameNode,用来监控HDFS状态的负载后台程序,每隔一段时间获取HDFS元数据的快照。

Ø JobTracker,负载接受用户提交的作用,负载启动、跟踪任务的执行。

Ø TaskTracke,负载执行由JobTracker分配的任务,管理各个任务在每个节点上的执行情况。

1) 




map:化整为零

Map:归约

 

010_Hadoop 2.x 生态系统介绍讲解

注意:

Hadoop1.x与Hadoop2.x生态的同与不同:

ü 增加了YARN

ü 改进了Pig->Pig2

ü Tez以及Storm

 

展望,后续会议2.x版本为主,-->Spark

011_Hadoop 1.x 服务讲解

012_HDFS 架构的讲解

 

说明:

NameNode,存储文件的元数据

2) 文件名称

3) 文件的目录结构

4) 文件属性(权限、副本数、生成的时间)

文件 -> Block(块) -> (存储在)DataNodes上,

 

013_MapReduce 架构讲解和MapReduce思想原理讲解

014_Apache Hadoop 三种安装部署模式讲解

单机(本地)模式(Standalone Mode)

1) 安装JDK:    

① 解压/opt/software/jdk-64b-linx-x64.bin到/opt/modules/

② 配置环境变量,编辑/etc/profile文件,添加如下内容:

##java

export JAVA_HOME=/opt/modules/jdk1.6.0_45

Export PATH=$PATH:$JAVA_HOME/bin

以root用户登陆,执行以下命令,使配置生效。

③ 测试

2)安装Hadoop1.2.1

① 解压

② 移动到软件安装目录

③ 配置环境变量

注意:以root用户登陆,使配置生效。

④ 测试

3)

015_Apache Hadoop 1.x 单机(本地)模式安装部署与测试

016_Hadoop 1.x 伪分布式安装部署

伪分布式模式(Pseudo-Distributed Mode)

一台机器,每个Hadoop守护进程都是一个独立的JVM进程,通常用于调试

伪分布模式要点:


017_查看Hadoop 日志以及日志的格式和命名组成

日志格式:

有两种日志:分别以log跟out结尾

① 以log结尾的日志

通过log4j日志记录格式进行日志的记录,采用的日常滚动文件后缀策略来命名日志文件,内容比较全

② 以out结尾的日志

记录标注输出

注意:在hadoop-env配置文件中可以进行配置,格式含有如下图:


018_Hadoop 1.x 守护进程服务三种启动停止方式

Hadoop启动、停止:

Hadoop启动、停止的三种模式,

1) 分别启动以及分别停止

分别启动HDFS和Mapreduce,命令如下,

启动:

$start-dfs.sh

$start-mapred.sh

停止:

$stop-mapred.sh

$stop-dfs.sh

2) 全部启动或全部停止

启动:

Start-all.sh

启动顺序:NameNode、DataNode、SecondNameNode、JobTracker、TaskTracker

停止:

Stop-all.sh

停止顺序:JobTracker、TaskTracker、NameNode、DataNode、SecondNameNode

具体如下图,

 

3) 分别启动、停止5个后台守护进程

启动顺序:NameNode、DataNode、SecondNameNode、JobTracker、TaskTracker

停止顺序:JobTracker、TaskTracker、NameNode、DataNode、SecondNameNode

具体命令如下图所示,


说明,

启动:

hadoop-daemon.sh start namenode

hadoop-daemon.sh start datanode

hadoop-daemon.sh start secondarynamenode

hadoop-daemon.sh start jobtracker

hadoop-daemon.sh start tasktracker

停止:

hadoop-daemon.sh stop jobtracker

hadoop-daemon.sh stop tasktracker

hadoop-daemon.sh stop namenode

hadoop-daemon.sh stop datanode

hadoop-daemon.sh stop secondarynamenode

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
提供的源码资源涵盖了Java应用等多个领域,每个领域都包含了丰富的实例和项目。这些源码都是基于各自平台的最新技术和标准编写,确保了在对应环境下能够无缝运行。同时,源码中配备了详细的注释和文档,帮助用户快速理解代码结构和实现逻辑。 适用人群: 适合毕业设计、课程设计作业。这些源码资源特别适合大学生群体。无论你是计算机相关专业的学生,还是对其他领域编程感兴趣的学生,这些资源都能为你提供宝贵的学习和实践机会。通过学习和运行这些源码,你可以掌握各平台开发的基础知识,提升编程能力和项目实战经验。 使用场景及目标: 在学习阶段,你可以利用这些源码资源进行课程实践、课外项目或毕业设计。通过分析和运行源码,你将深入了解各平台开发的技术细节和最佳实践,逐步培养起自己的项目开发和问题解决能力。此外,在求职或创业过程中,具备跨平台开发能力的大学生将更具竞争力。 其他说明: 为了确保源码资源的可运行性和易用性,特别注意了以下几点:首先,每份源码都提供了详细的运行环境和依赖说明,确保用户能够轻松搭建起开发环境;其次,源码中的注释和文档都非常完善,方便用户快速上手和理解代码;最后,我会定期更新这些源码资源,以适应各平台技术的最新发展和市场需求。 所有源码均经过严格测试,可以直接运行,可以放心下载使用。有任何使用问题欢迎随时与博主沟通,第一时间进行解答!

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值