实训笔记7.11
7.11
一、座右铭
我的故事你说,我的文字我落,我值几两你定,我去何方我挑。
二、vmware安装操作系统的步骤
2.1 需要将windows上的一些资源打包成为一个容器
虚拟机连接网络分为三种
2.1.1 桥接网络
本机安装的操作系统可以被同一个局域网下的其他主机访问
桥接网络和我们的局域网的网络是在同一个网段下的
2.1.2 NAT网络
本地安装的操作系统只能被我们的主机访问到,同一个局域网下的其他主机无法访问的
NAT模式的网络使用的网段和局域网的网段不是同一个网段,网段就是vmnet8网卡提供的
2.1.3 仅主机网络
谁也无法访问
2.2 将镜像驱动和容器关联,开启就可以安装操作系统
三、Linux操作系统的网络基本操作
3.1 和网络有关的Linux操作
ip addr
:查看Linux系统的IP地址的
ping 域名/ip地址
可以查看是否能访问某个网络
linux所有的网络配置都是在一个配置文件当中: /etc/sysconfig/network-scripts/ifcfg-ens33
ONBOOT="yes"
启用当前网卡
IPADDR="192.168.XX.XXX"
配置静态
IP GATEWAY="192.168.XX.2"
配置网关的
DNS1="114.114.114.114"
配置域名解析服务器
3.2 网络如果修改完成,需要重启Linux的网卡服务
systemctl restart network
3.3 网络服务
在Linux上还有一个网络服务NetworkManagaer,这个服务我们不需要,但是它是一直开启的,如果它是开启状态,会对我们的后续操作产生影响,因此这个服务我们要求关闭了并且永久禁用了
3.4 防火墙
Linux上还有一个服务叫做firewalld(防火墙的服务),最好把防火墙服务也给关闭了,我们后续的大数据软件安装会流畅一点。
systemctl stop firewalld
systemctl disable firewalld
3.5 Linux安装的节点服务器我们一般都是要起一个主机名,便于在集群当中找到唯一的一个主机
vim /etc/hostname
主机名更改完成需要重启虚拟机:reboot
shutdown now
关闭虚拟机
四、多主机之间的互相登录问题(主机ip的映射、SSH免密登录)
多主机之间互相登录的时候,需要使用ssh IP地址的命令进行登录,但是这个操作有两个问题
-
一个集群中可能有很多的节点,每个节点都有一个ip地址,ip不好记忆的
-
ssh在登录集群中其他节点的时候需要输入密码的
4.1 主机名和IP的映射配置: 说的直白一点其实就是域名解析的配置
解决集群中多台节点的IP地址不容易记忆的问题,在安装操作系统的时候,我们就已经有意的给每一台节点起了一个独一无二的主机名,如果进行登录的时候,能根据主机名去自动识别IP地址
域名解析文件:
/etc/hosts
ip 域名
4.2 SSH的免密钥登录配置
免密钥登录的原理很简单,在当前节点上产生一个公钥和私钥文件,然后我们把公钥文件给其他节点分发一份,这样的话当前节点连接其他节点就不需要密码了
-
产生公钥和私钥文件
- 切换到公钥和私钥文件的目录下:
~/.ssh
- 产生公钥和私钥文件:
ssh-keygen -t rsa
- 切换到公钥和私钥文件的目录下:
-
将公钥文件发送给需要免密登录到当前节点的其他节点
ssh-copy-id 主机名/IP
五、大数据时代下主要面临两个问题
5.1 海量数据的存储问题
5.2 海量数据的计算问题
5.3 google三篇论文
5.3.1 DFS
5.3.2 Map-Reduce
5.3.3 BigTable
六、Hadoop技术–脱自于google的三篇论文
把大数据中遇到的两个核心问题全部解决了
6.1 Hadoop内部的三个核心组件
6.1.1 HDFS:分布式文件存储系统
-
分布式思想解决了海量数据的存储问题
-
三个核心组件组成
- NameNode:主节点
- 存储整个HDFS集群的元数据(目录结构)
- 管理整个HDFS集群
- DataNode:数据节点/从节点存储数据的,DataNode以Block块的形式进行文件存储
- SecondaryNameNode:小秘书——帮助NameNode合并日志数据的(元数据)
- NameNode:主节点
6.1.2 YARN:分布式资源调度系统
两个核心组件组成
- ResourceManager:主节点
管理整个YARN集群的,同时负责整体的资源分配
- NodeManager:从节点
真正负责进行资源提供的
主从架构的软件
6.1.3 MapReduce:分布式离线计算框架
分布式思想解决了海量数据的计算问题
6.1.4 Hadoop Common
6.2 Hadoop技术诞生的一个生态圈
- 数据采集存储——flume、kafka、hbase、hdfs
- 数据清洗预处理——MapReduce、Spark
- 数据统计分析——Hive、Pig
- 数据迁移——sqoop
- 数据可视化——echarts
- zookeeper
6.3 课程主要围绕Apache的Hadoop发行版本来讲解
-
官网:https://hadoop.apache.org
-
apache hadoop发行版本
- hadoop1.x
- hadoop2.x
- hadoop3.x
- hadoop3.1.4
6.4 hadoop的安装的四种模式
hadoop软件中HDFS和YARN是一个系统,而且是一个分布式的系统,同时他们还是一种主从架构的软件。
第一种:本地安装模式—只能使用MapReduce,HDFS、YARN均无法使用
第二种:伪分布安装模式:hdfs和yarn的主从架构软件全部安装到同一个节点上
第三种:完全分布式安装模式:hdfs和yarn的主从架构组件安装到不同的节点上
第二种、第三种:单点故障问题
第四种:HA高可用安装模式:hdfs和yarn的主从架构组件安装到不同节点上,同时还需要把他们的主节点多安装两三个,但是在同一时刻只能有一个主节点对外提供服务
6.5 Hadoop的伪分布安装流程
-
需要在Linux上先安装JDK,Hadoop底层是基于Java开发的
-
配置当前主机的主机映射以及ssh免密登录
环境变量的配置主要有两个地方可以配置
1、
/etc/profile
:系统环境变量2、
~/.bash_profile
:用户环境变量3、环境变量配置完成必须重新加载配置文件 source 环境变量文件路径
-
安装本地版本的Hadoop
- 上传
- 解压
- 配置环境变量
-
安装伪分布式版本的Hadoop——修改各种各样的hadoop配置文件即可
- hadoop-env.sh 配置Java的路径
- core-site.xml 配置HDFS和YARN的一些共同的配置项
- HDFS的NameNode路径
- HDFS集群存储的文件路径
- hdfs-site.xml 配置HDFS的相关组件配置NameNode的web访问路径、DN的web访问网站,SNN的web访问路径等等。。。
- mapred-env.sh 配置MR程序运行时的关联的软件(Java YARN)路径
- mapred-site.xml 配置MR程序运行环境配置将MR程序在YARN上运行
- yarn-env.sh 配置YARN关联的组件路径
- yarn-site.xml 配置YARN的相关组件配置RM、NM的web访问路径等等
- workers/slaves 配置HDFS和YARN的从节点的主机配置DN和NM在哪些节点上需要安装
-
格式化HDFS集群
hdfs namenode -format
-
启动HDFS和YARN
- HDFS
start-dfs.sh
stop-dfs.sh
- 提供了一个web访问网站,可以监控整个HDFS集群的状态信息 http://ip:9870 hadoop3.x ip:50070 hadoop2.x
- yarn
start-yarn.sh
stop-yarn.sh
- 提供了一个web网站,可以监控整个YARN集群的状态: http://ip:8088
- HDFS
七、Spark技术
解决了海量数据的计算问题