大数据入门（Hadoop生态系统）

最新推荐文章于 2022-10-26 19:35:13 发布

阿q宣你

最新推荐文章于 2022-10-26 19:35:13 发布

阅读量704

点赞数 1

分类专栏：大数据人工智能大数据学习文章标签：大数据大数据学习大数据入门大数据开发 hadoop

本文链接：https://blog.csdn.net/qq_38459404/article/details/89790302

版权

Hadoop生态系统为大数据领域提供了开源的分布式存储和分布式计算的平台，这一章我们进行Hadoop生态系统的入门学习，介绍其中分布式文件系统HDFS、分布式资源调度YARN、分布式计算框架MapReduce（包含Spark的入门以及和MapReduce的比较），最后通过Spring Boot集成Hadoop来访问文件系统。

大数据的应用

本人喜欢体育运动，以体育中来举列子。

足球点球大战

2006年世界杯中德国队和阿根廷队的点球大战中，德国队守门员教练科普克，给了门将莱曼一张纸条，莱曼看过纸条将计就计。阿根廷队的每个点球，几乎都被莱曼判断对了方向，并成功扑出坎比亚索和阿亚拉的点球，帮助德国队打进四强。而这张纸条就是根据数据分析记录了阿根廷队员点球的习惯方向。

对大数据以及人工智能概念都是模糊不清的，该按照什么线路去学习，学完往哪方面发展，想深入了解，想学习的同学欢迎加入大数据学习qq群：458345782，有大量干货（零基础以及进阶的经典实战）分享给大家，并且有清华大学毕业的资深大数据讲师给大家免费授课，给大家分享目前国内最完整的大数据高端实战实用学习流程体系。从java和linux入手，其后逐步的深入到HADOOP-hive-oozie-web-flume-python-hbase-kafka-scala-SPARK等相关知识一一分享！

金州勇士的崛起

如今越来越多的篮球队开始重视和应用篮球大数据，比如NBA中的金州勇士队。勇士队曾长期以来一直是NBA里最烂的球队之一，2009年它的成绩排名倒数第二。没有任何执教NBA经验的史蒂夫·科尔，因突出的投篮优势被委任为教练。科尔在执掌勇士队之后，坚持用数据说话而不是凭经验。他根据数据工程师对历年来NBA比赛的统计，发现最有效的进攻是眼花缭乱的传球和准确的投篮，而不是彰显个人能力的突破和扣篮。在这个思想的指导下，勇士队队员苦练神投技。这其中最亮眼的新打法是尽可能地从24英尺(大约7.3米)外的三分线投篮，这样可以得3分。于是开发了小球时代，在2015-2018摘下三枚总冠军，成功成为NBA的霸主。

大数据的基本概率

有人说大数据的特点就是数据量大，这个不是非常的正确，数据量大不是关键，通过数据分析在数据中提取出价值，最终带来商业上的利益，这才是大数据分析的最终目标。大数据有4个特点，一般我们称之为4V，分别为：

Volume（大量）：随着信息技术的高速发展，数据开始爆发性增长。社交网络（微博、推特、脸书）、移动网络、各种智能工具，服务工具等，都成为数据的来源。数据的存储也从过去的GB到TB，乃至现在的PB、EB级别。
Variety（多样）：广泛的数据来源，决定了大数据形式的多样性。任何形式的数据都可以产生作用。
Velocity（高速）：大数据的产生非常迅速，主要通过互联网传输。大数据对处理速度有非常严格的要求，服务器中大量的资源都用于处理和计算数据，很多平台都需要做到实时分析。数据无时无刻不在产生，谁的速度更快，谁就有优势。
Value（价值）：这也是大数据的核心特征。通过从大量不相关的各种类型的数据中，挖掘出对未来趋势与模式预测分析有价值的数据，并通过机器学习方法、人工智能方法或数据挖掘方法深度分析，发现新规律和新知识，并运用于农业、金融、医疗等各个领域，从而最终达到改善社会治理、提高生产效率、推进科学研究的效果。

大数据涉及到的技术

数据采集：把海量数据收集到数据平台上来，才能做后续的数据分析。
数据存储：数据的存储位置。由于数据量巨大，一般为分布式存储系统，较通用用的为。
数据分析：对数据进行有效性分析（数据分析框架MapReduce，spark等）。
可视化：把分析结果可视化展示。

分布式文件系统HDFS

HDFS概述及设计目标

HDFS源于Google的GFS论文，设计目标为

非常巨大的分布式文件系统。
运行在普通廉价的硬件上。
易扩展、为用户提供性能不错的文件存储服务。

HDFS架构

HDFS是一种master/slave的架构。一个HDFS集群包含一个唯一的NameNode(NN)，这个master server管理着整个文件系统的命名空间并且调节客户端对文件的访问。同时，还拥有一系列的DataNode（DN），每个都管理着他们运行的对应节点的数据存储。HDFS提供了一个文件系统的命名空间同时允许用户将数据存在这些文件上。通常，一个文件被拆分成一个或多个数据块，并且这些数据块被保存在一系列的DataNode上。NameNode执行文件系统的命名空间的相关操作比如打开、关闭、重命名目录或者文件。同时决定了数据块到DataNode的映射。DataNode为客户端的读取写入需求提供服务，同时处理NameNode发来的数据块的创建、删除、复制等需求。

image.png

HDFS副本机制

在前面说过HDFS使用相对廉价的计算机，那么宕机就是一种必然事件，我们需要让数据避免丢失，就只有采取冗余数据存储，而具体的实现就是副本机制。具体为把一个文件分为很多的块，一个块默认为128M，而这些块是以多副本的形式存储。比如存储三个副本：

第一副本：如果上传节点是DataNode(DN)，则上传该节点；如果上传节点是NameNode(NN)，则随机选择DataNode(DN) 。
第二副本：放置在不同机架的DataNode(DN)上。
第三副本：放置在与第二副本相同机架的不同DataNode(DN)上。
这种方式可以极大程度上避免了宕机所造成的数据丢失。而数据库的存储的元数据是存储在NameNode(NN)中，在数据读取是可以知道在那些节点上读取文件。下面是官方架构图。

image.png

HDFS环境搭建

Apache Hadoop 有版本管理混乱，部署过程繁琐、升级过程复杂，兼容性差等缺点，而CDH是Hadoop众多分支中的一种，由Cloudera维护，基于稳定版本的Apache Hadoop构建。使用CDH可以避免在使用过程中的依赖包冲突问题，对版本的升级也很方便，所以我们使用Hadoop-2.6.0-cdh5.7.0版本进行安装。本人是使用虚拟机进行伪分布式模式的搭建，即在一台机器上安装，集群模式其实和伪分布式模式差不太多。

第一步安装JDK

//把压缩包jdk-8u181-linux-i586.tar.gz上传到虚拟机
rz 选择文件上传
//在根目录下建立解压文件夹
 mkdir apps
//解压jdk到apps目录
tar -zxvf jdk-8u181-linux-i586.tar.gz -C ~/apps/
//添加环境变量
vi ~/.bash_profile
//在编辑模式添加以下内容
export JAVA_HOME=/root/apps/jdk1.8.0_181
export PATH=$JAVA_HOME/bin:$PATH
//编辑完成后，保存退出
//使配置生效
source ~/.bash_profile
//验证
java -version
//若出现版本信息表示安装成功
openjdk version "1.8.0_181"
OpenJDK Runtime Environment (build 1.8.0_181-b13)
OpenJDK 64-Bit Server VM (build 25.181-b13, mixed mode)

第二步安装SSH

//安装SSH
sudo yum install ssh
//生成密钥文件
ssh-keygen -t rsa
//配置免密钥登录：复制公钥到authorized_keys，因为NameNode(NN)需要连接访问DataNode(DN)，配置后可直接访问不用登录，在集群环境下需要复制到其它节点。
cp ~/.ssh/id_rsa.pub ~/.ssh/authorized_keys

安装hadoop

下载：直接去cdh网站下载 [http://archive.cloudera.com/cdh5/cdh/5/]
//解压
tar -zxvf hadoop-2.6.0-cdh5.7.0.tar.gz -C ~/app
//配置环境变量
export HADOOP_HOME=/root/apps/hadoop
export PATH=$HADOOP_HOME/bin:$PATH
//hadoop配置文件的修改(hadoop_home/etc/hadoop/)
hadoop-env.sh：
export JAVA_HOME=/root/apps/jdk1.8.0_181

core-site.xml：
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://192.168.30.130:8092</value>//配置NameNode(NN)地址
    </property>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/home/hadoop/app/tmp</value>//因为HDFS默认是存储在零时文件中，关机后会丢失，这个配置持久化

最低0.47元/天解锁文章

阿q宣你

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
大数据入门（Hadoop生态系统）

Hadoop生态系统为大数据领域提供了开源的分布式存储和分布式计算的平台，这一章我们进行Hadoop生态系统的入门学习，介绍其中分布式文件系统HDFS、分布式资源调度YARN、分布式计算框架MapReduce（包含Spark的入门以及和MapReduce的比较），最后通过Spring Boot集成Hadoop来访问文件系统。大数据的应用本人喜欢体育运动，以体育中来举列子。足球点球大战...
复制链接

扫一扫