实训笔记7.11

最新推荐文章于 2024-07-19 14:02:42 发布

cai-4

最新推荐文章于 2024-07-19 14:02:42 发布

阅读量264

点赞数

分类专栏：实训文章标签：笔记

本文链接：https://blog.csdn.net/cai_4/article/details/131671448

版权

实训专栏收录该内容

54 篇文章 0 订阅

订阅专栏

实训笔记7.11

7.11

7.11

一、座右铭

我的故事你说，我的文字我落，我值几两你定，我去何方我挑。

二、vmware安装操作系统的步骤

2.1 需要将windows上的一些资源打包成为一个容器

虚拟机连接网络分为三种

2.1.1 桥接网络

本机安装的操作系统可以被同一个局域网下的其他主机访问

桥接网络和我们的局域网的网络是在同一个网段下的

2.1.2 NAT网络

本地安装的操作系统只能被我们的主机访问到，同一个局域网下的其他主机无法访问的

NAT模式的网络使用的网段和局域网的网段不是同一个网段，网段就是vmnet8网卡提供的

2.1.3 仅主机网络

谁也无法访问

2.2 将镜像驱动和容器关联，开启就可以安装操作系统

三、Linux操作系统的网络基本操作

3.1 和网络有关的Linux操作

ip addr :查看Linux系统的IP地址的

ping 域名/ip地址 可以查看是否能访问某个网络

linux所有的网络配置都是在一个配置文件当中： /etc/sysconfig/network-scripts/ifcfg-ens33

ONBOOT="yes" 启用当前网卡

IPADDR="192.168.XX.XXX" 配置静态

IP GATEWAY="192.168.XX.2" 配置网关的

DNS1="114.114.114.114" 配置域名解析服务器

3.2 网络如果修改完成，需要重启Linux的网卡服务

systemctl restart network

3.3 网络服务

在Linux上还有一个网络服务NetworkManagaer,这个服务我们不需要，但是它是一直开启的，如果它是开启状态，会对我们的后续操作产生影响，因此这个服务我们要求关闭了并且永久禁用了

3.4 防火墙

Linux上还有一个服务叫做firewalld（防火墙的服务），最好把防火墙服务也给关闭了，我们后续的大数据软件安装会流畅一点。

systemctl stop firewalld

systemctl disable firewalld

3.5 Linux安装的节点服务器我们一般都是要起一个主机名，便于在集群当中找到唯一的一个主机

vim /etc/hostname

主机名更改完成需要重启虚拟机：reboot

shutdown now 关闭虚拟机

四、多主机之间的互相登录问题（主机ip的映射、SSH免密登录）

多主机之间互相登录的时候，需要使用ssh IP地址的命令进行登录，但是这个操作有两个问题

一个集群中可能有很多的节点，每个节点都有一个ip地址，ip不好记忆的
ssh在登录集群中其他节点的时候需要输入密码的

4.1 主机名和IP的映射配置：说的直白一点其实就是域名解析的配置

解决集群中多台节点的IP地址不容易记忆的问题，在安装操作系统的时候，我们就已经有意的给每一台节点起了一个独一无二的主机名，如果进行登录的时候，能根据主机名去自动识别IP地址

域名解析文件：

/etc/hosts

ip 域名

4.2 SSH的免密钥登录配置

免密钥登录的原理很简单，在当前节点上产生一个公钥和私钥文件，然后我们把公钥文件给其他节点分发一份，这样的话当前节点连接其他节点就不需要密码了

产生公钥和私钥文件
1. 切换到公钥和私钥文件的目录下： ~/.ssh
2. 产生公钥和私钥文件： ssh-keygen -t rsa
将公钥文件发送给需要免密登录到当前节点的其他节点

ssh-copy-id 主机名/IP

五、大数据时代下主要面临两个问题

5.1 海量数据的存储问题

5.2 海量数据的计算问题

5.3 google三篇论文

5.3.1 DFS

5.3.2 Map-Reduce

5.3.3 BigTable

六、Hadoop技术–脱自于google的三篇论文

把大数据中遇到的两个核心问题全部解决了

6.1 Hadoop内部的三个核心组件

6.1.1 HDFS：分布式文件存储系统

分布式思想解决了海量数据的存储问题
三个核心组件组成
1. NameNode：主节点
  1. 存储整个HDFS集群的元数据（目录结构）
  2. 管理整个HDFS集群
2. DataNode：数据节点/从节点存储数据的，DataNode以Block块的形式进行文件存储
3. SecondaryNameNode：小秘书——帮助NameNode合并日志数据的（元数据）

6.1.2 YARN：分布式资源调度系统

两个核心组件组成

ResourceManager：主节点

管理整个YARN集群的，同时负责整体的资源分配

NodeManager：从节点

真正负责进行资源提供的

主从架构的软件

6.1.3 MapReduce：分布式离线计算框架

分布式思想解决了海量数据的计算问题

6.1.4 Hadoop Common

6.2 Hadoop技术诞生的一个生态圈

数据采集存储——flume、kafka、hbase、hdfs
数据清洗预处理——MapReduce、Spark
数据统计分析——Hive、Pig
数据迁移——sqoop
数据可视化——echarts
zookeeper

6.3 课程主要围绕Apache的Hadoop发行版本来讲解

官网：https://hadoop.apache.org
apache hadoop发行版本
1. hadoop1.x
2. hadoop2.x
3. hadoop3.x
4. hadoop3.1.4

6.4 hadoop的安装的四种模式

hadoop软件中HDFS和YARN是一个系统，而且是一个分布式的系统，同时他们还是一种主从架构的软件。

第一种：本地安装模式—只能使用MapReduce，HDFS、YARN均无法使用

第二种：伪分布安装模式：hdfs和yarn的主从架构软件全部安装到同一个节点上

第三种：完全分布式安装模式：hdfs和yarn的主从架构组件安装到不同的节点上

第二种、第三种：单点故障问题

第四种：HA高可用安装模式：hdfs和yarn的主从架构组件安装到不同节点上，同时还需要把他们的主节点多安装两三个，但是在同一时刻只能有一个主节点对外提供服务

6.5 Hadoop的伪分布安装流程

需要在Linux上先安装JDK，Hadoop底层是基于Java开发的
配置当前主机的主机映射以及ssh免密登录

环境变量的配置主要有两个地方可以配置

1、/etc/profile:系统环境变量

2、~/.bash_profile：用户环境变量

3、环境变量配置完成必须重新加载配置文件 source 环境变量文件路径

安装本地版本的Hadoop
1. 上传
2. 解压
3. 配置环境变量
安装伪分布式版本的Hadoop——修改各种各样的hadoop配置文件即可
1. hadoop-env.sh 配置Java的路径
2. core-site.xml 配置HDFS和YARN的一些共同的配置项
  1. HDFS的NameNode路径
  2. HDFS集群存储的文件路径
3. hdfs-site.xml 配置HDFS的相关组件配置NameNode的web访问路径、DN的web访问网站，SNN的web访问路径等等。。。
4. mapred-env.sh 配置MR程序运行时的关联的软件（Java YARN）路径
5. mapred-site.xml 配置MR程序运行环境配置将MR程序在YARN上运行
6. yarn-env.sh 配置YARN关联的组件路径
7. yarn-site.xml 配置YARN的相关组件配置RM、NM的web访问路径等等
8. workers/slaves 配置HDFS和YARN的从节点的主机配置DN和NM在哪些节点上需要安装
格式化HDFS集群

hdfs namenode -format
启动HDFS和YARN
1. HDFS
  1. start-dfs.sh
  2. stop-dfs.sh
  3. 提供了一个web访问网站，可以监控整个HDFS集群的状态信息 http://ip:9870 hadoop3.x ip:50070 hadoop2.x
2. yarn
  1. start-yarn.sh
  2. stop-yarn.sh
  3. 提供了一个web网站，可以监控整个YARN集群的状态： http://ip:8088

七、Spark技术

解决了海量数据的计算问题

八、Flink技术：计算框架

九、Storm技术：计算框架

cai-4

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
实训笔记7.11

解决集群中多台节点的IP地址不容易记忆的问题，在安装操作系统的时候，我们就已经有意的给每一台节点起了一个独一无二的主机名，如果进行登录的时候，能根据主机名去自动识别IP地址。第四种：HA高可用安装模式：hdfs和yarn的主从架构组件安装到不同节点上，同时还需要把他们的主节点多安装两三个，但是在同一时刻只能有一个主节点对外提供服务。NAT模式的网络使用的网段和局域网的网段不是同一个网段，网段就是vmnet8网卡提供的。本地安装的操作系统只能被我们的主机访问到，同一个局域网下的其他主机无法访问的。
复制链接

扫一扫