Hadoop基础到入门
文章介绍:
大家好,我是行不更名,坐不改姓的宋晓刚,下面将带领大家从基础到小白Hadoop学习,跟上我的步伐进入Hadoop的世界。
微信:15319589104
QQ: 2981345658
介绍:
Hadoop是一个由Apache基金会开发的分布式系统基础架构。它允许用户在不了解分布式系统底层细节的情况下,开发分布式程序,充分利用集群的威力进行高速运算和存储。Hadoop的核心设计主要包括两部分:一是分布式文件系统(HDFS),提供高容错性和设计用来部署在低廉硬件上的存储;二是MapReduce,为海量数据提供计算。
HDFS(Hadoop Distributed File System)是Hadoop的存储部分,具有高容错性和高吞吐量的特点,适合超大数据集的应用程序。它放宽了POSIX的要求,可以以流的形式访问文件系统中的数据。在分布式环境下,文件被分成多个块,存储在多个节点上。HDFS提供了对文件的分布式处理和访问的能力。
MapReduce是Hadoop的计算部分,它是一个编程模型和任务调度框架,用于处理和生成大数据集。MapReduce将问题分解为两个阶段:Map阶段和Reduce阶段。在Map阶段,输入的数据被分割成若干个独立的子集,并由多个任务并行处理;在Reduce阶段,结果被汇总并输出。MapReduce框架负责处理并行、容错、负载均衡等问题,使得用户可以专注于业务逻辑的实现。
总的来说,Hadoop提供了一个分布式计算和存储的框架,使得用户可以轻松地处理大规模数据集。通过HDFS提供的高容错性和高吞吐量存储,以及MapReduce提供的简化的编程模型和任务调度框架,Hadoop使得用户可以编写出复杂高效的并行程序,充分利用集群的威力进行高速运算和存储。
1.0Hadoop部署钱的环境配置
- 新建虚拟机
- 创建root用户,创建hadoop普通用户
1.1hadoop添加root权限
关闭CentOS系统防火墙,禁用SELINUX,(在root用户下进行设置)为了保证客户端能访问Hadoop平台,需要关闭CentOS防火墙
并将SELINUX设置未disable
[root@master ~]# systemctl stop firewalld
[root@master ~]# systemctl disable firewalld
[root@master ~]# vi /etc/selinux/config
将SELINUX设置未disabled
SELINUX=disabled
为普通用户hadoop添加root权限
[root@master ~]# vi /etc/sudoers
光标拉到最下面,就可以看到参数,进行添加
root ALL=(ALL) ALL
hadoop ALL=(ALL) ALL
2.0部署单机模式
前提:Hadoop是由java语言开发出来的,因此Hadoop正常运行需要安装java的运行环境,就是JDK
咱们使用的是jdk-8u221-linux-x64.tar.gz,企业不适合用root登录,而采用普通用户登录Linux系统
2.1上传JDK文件
在这里我们使用上传工具是Secure来进行上传
步骤:点击连接,快速连接,输入虚拟机的ip,选择需要传输的用户与位置,
复制需要传送的文件到图片红色的位置,上传即可。(一定要选择对路径)
2.2解压JDK软件
上传成功后,并且解压到JDK软件包到普通用户hadoop的/home目录下
[hadoop@master ~]$ ls
jdk-8u221-linux-x64.tar.gz
[hadoop@master ~]$ tar -xzvf jdk-8u221-linux-x64.tar.gz
[hadoop@master ~]$ ls
jdk1.8.0_131 jdk-8u221-linux-x64.tar.gz
[hadoop@master ~]$ mv jdk1.8.0_131 jdk //修改文件名字,好配置环境
[hadoop@master ~]$ pwd
/home/hadoop 查看当前的路