JAVA大数据(一)简介-Hadoop环境配置,伪分布式模式架构学习用

这篇博客介绍了Hadoop大数据环境的配置,从集群环境准备到Hadoop的伪分布式模式搭建,包括虚拟机设置、IP配置、SSH免密登录、时钟同步和JDK安装等步骤。还详细讲解了Hadoop的核心组件、历史版本及2.x架构模型,最后通过HDFS的使用初体验和MapReduce程序初体验,让读者对Hadoop集群有初步认识。
摘要由CSDN通过智能技术生成

文章目录

1.课前资料

2.课程整体介绍

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-mH0U4e1A-1641888708908)(day01_hadoop.assets/1628589606864.png)]

3.大数据介绍

什么是大数据?

简单来说大数据就是海量数据及其处理。

大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,
是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产(资源)。

在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》 [2] 中大数据指不用随机分析法(抽样调查)这样的捷径,
而采用所有数据进行分析处理。大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、
Value(低价值密度)、Veracity(真实 性)。——摘自百度百科

为什么要学习大数据?

拓宽发展面

大数据已经成为基础技术,现在最火的人工智能,物联网等就建立在大数据的基础上。

面向面试,提高认知深度,拓宽知识广度,增加面试筹码,提高薪资。

大数据相关技术

海量数据获取
爬虫(分析别人家的事):Python,java…

日志(分析自己的事):log4j、flume(数据的收集聚集加载)

历史数据(分析以前的事):mysql、oracle、ETL(数据的提取转化加载)hdfs、

实时数据(分析现在的事):hbase、spark、flink

海量数据存储

HDFS(Hive、Hbase、Spark依赖存储都是HDFS)Hadoop distributed file system

S3(亚马逊)

NFS(sun公司)

海量数据清洗

数据清洗没有我们想的那么复杂,方式有很多:

过程中可以用代码直接清洗,flume可以清洗,Hive可以清洗,flink可以清洗。整个流程中几乎每个步骤都可以做到数据的清洗。

海量数据处理

离线数据处理:MapReduce(hadoop的一部分)、Hive(底层是MR,业界主流)、SparkSQL、FlinkDataSet

流式数据处理:Flink(全面高效)、Storm(速度快,亚秒级)、SparkStreaming(速度没有Storm快,但是吞吐量高)

4.集群环境准备

4.1准备虚拟机

克隆三个虚拟机hadoop01、hadoop02、hadoop03均为NAT模式,其中hadoop01内存设置为1G(16G内存以上建议设置为2G),hadoop02和hadoop03为512M。

注:虚拟机登录的用户名和密码都是root

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-FgiA8W0G-1641888708909)(day01_hadoop.assets/1626146805796.png)]

4.2修改为静态IP

修改IP地址,将:

第一台hadoop01的虚拟机ip地址改为:192.168.64.101

第二台hadoop02的虚拟机ip地址改为:192.168.64.102

第三台hadoop03的虚拟机ip地址改为:192.168.64.103

4.2.1配置文件

cd /etc/sysconfig/network-scripts   #进入网络配置目录
 
dir ifcfg*                         #找到网卡配置文件
 
ifcfg-ens33                         #找到版本最新的文件并修改
 
vim ifcfg-ens33
 
或者
 
vim /etc/sysconfig/network-scripts/ifcfg-ens33

4.2.2配置文件内容

注意不要写注释部分

TYPE=Ethernet
 
BOOTPROTO=static                              #改成static,针对NAT
 
NAME=eno16777736
 
UUID=4cc9c89b-cf9e-4847-b9ea-ac713baf4cc8
 
DEVICE=eno16777736
 
DNS1=114.114.114.114     #和网关相同
 
ONBOOT=yes               #开机启动此网卡
 
IPADDR=192.168.64.101    #固定IP地址
 
NETMASK=255.255.255.0    #子网掩码
 
GATEWAY=192.168.64.2     #网关和NAT自动配置的相同,不同则无法登录

4.2.3重启网络

以下两种方式任选其一

service network restart   #重启网络
 
systemctl restart network.service   #重启网络centos7

4.2.4查看IP

ip addr                  #查看IP地址 ip add

4.3mobaxTerm的使用

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-zSxneALV-1641888708911)(day01_hadoop.assets/1626149857149.png)]

登录成功后,弹出对话框点yes 保存密码。

补充:mobaxTerm远程连接慢的问题

在使用shell连接虚拟机时连接等待时间太长,ssh的服务端在连接时会自动检测dns环境是否一致导致的,修改为不检测即可。

1、打开sshd服务的配置文件
vim /etc/ssh/sshd_config
把UseDNS yes改为UseDNS no(如果没有,自行编写在文件末尾加入)
2、重启sshd服务
systemctl restart sshd.service 或者 /etc/init.d/sshd restart

4.4关闭防火墙

systemctl stop firewalld.service        #关闭防火墙服务
 
systemctl disable firewalld.service     #禁止防火墙开启启动
 
 
systemctl restart firewalld.service      #重启防火墙使配置生效

systemctl enable firewalld.service       #设置防火墙开机启动
 

检查防火墙状态

[root@hadoop01 ~]# firewall-cmd --state		#检查防火墙状态
false							#返回值,未运行

4.5修改主机名

vi /etc/hostname

4.6修改hosts文件

vi /etc/hosts

在配置文件中增加ip地址映射

192.168.64.101 hadoop01
 
192.168.64.102 hadoop02
 
192.168.64.103 hadoop03

4.7三台机器重启

reboot

4.8设置免密登录

4.8.1三台机器生成公钥与私钥

ssh-keygen

执行该命令之后,按下三个回车即可

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-JUE2b5v7-1641888708911)(day01_hadoop.assets/1626317476097.png)]

4.8.2拷贝公钥到同一台机器

三台机器执行命令:

ssh-copy-id hadoop01

4.8.3复制第一台机器的认证到其他机器

将第一台机器的公钥拷贝到其他机器上

在第一台机器上面执行以下命令

scp /root/.ssh/authorized_keys hadoop02:/root/.ssh
scp /root/.ssh/authorized_keys hadoop03:/root/.ssh

4.8.4测试

在hadoop01上进行远程登录测试

ssh hadoop02

不需要输入密码直接进入说明成功,exit退出

4.9三台机器时钟同步

通过网络进行时钟同步
通过网络连接外网进行时钟同步,必须保证虚拟机连上外网

ntpdate us.pool.ntp.org;

阿里云时钟同步服务器

ntpdate ntp4.aliyun.com

三台机器定时任务

crontab  -e   

*/1 * * * * /usr/sbin/ntpdate us.pool.ntp.org;

或者直接与阿里云服务器进行时钟同步

crontab -e
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值