Hadoop是一个由Apache基金会所开发的分布式系统基础架构。主要解决,海量数据的存储和海量数据的分析计算问题
HDFS(Hadoop Distributed File System),它是一个文件系统,用于存储文件,通过目录树来定位文件;其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。
MapReduce是一个分布式运算程序的编程框架,是用户开发“基于Hadoop的数据分析应用”的核心框架。MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个Hadoop集群上。
Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类 SQL 查询功能。
HBase 是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用 HBASE 技术可在廉价 PC Server 上搭建起大规模结构化存储集群。HBase 的目标是存储并处理大型的数据,更具体来说是仅需使用普通的硬件配置,就能够处理由成千上万的行和列所组成的大型数据。
1、下载 hadoop-2.7.2.tar.gz (http://archive.apache.org/dist/hadoop/core/hadoop-2.7.2/)
参考的配置笔记:https://blog.csdn.net/ljw_study_in_CSDN/article/details/104856314
2、下载之后,终端输入 cp hadoop-2.7.2.tar.gz /opt 把这个压缩包复制到opt目录下
root@easonl-Lenovo-IdeaPad-S400:/home/easonl/download# cp hadoop-2.7.2.tar.gz /opt
3、然后进入到opt目录,输入 tar -zxvf hadoop-2.7.2.tar.gz 解压缩
root@easonl-Lenovo-IdeaPad-S400:/opt# cd /opt
root@easonl-Lenovo-IdeaPad-S400:/opt# tar -zxvf hadoop-2.7.2.tar.gz
4、cd /etc/profile.d 进入到该目录下
root@easonl-Lenovo-IdeaPad-S400:/opt# cd /etc/profile.d
5、sudo vi hadoop.sh 创建hadoop.sh文件并编辑(按 gedit进入编辑模式)
root@easonl-Lenovo-IdeaPad-S400:/etc/profile.d# sudo vi hadoop.sh
6、hadoop.sh编辑内容:(这里需要按路径来写,先去opt目录下复制解压缩的路径,显示路径是/opt/hadoop-2.7.2)
export HADOOP_HOME=/opt/hadoop-2.7.2
export PATH=$PATH:/opt/hadoop-2.7.2/bin
export PATH=$PATH:/opt/hadoop-2.7.2/sbin
输入 :x 保存并退出。
export HADOOP_HOME=/opt/hadoop-2.7.2
export PATH=$PATH:/opt/hadoop-2.7.2/bin
export PATH=$PATH:/opt/hadoop-2.7.2/sbin
source全局配置文件/etc/profile,检验是否配置成功,并且运行,应该是没配置JDK 导致
root@easonl-Lenovo-IdeaPad-S400:/etc/profile.d# source hadoop.sh
root@easonl-Lenovo-IdeaPad-S400:/etc/profile.d# hadoop
Error: JAVA_HOME is not set and could not be found.
root@easonl-Lenovo-IdeaPad-S400:/etc/profile.d#
7、配置了JDK 后,但是这个问题是JDK 版本问题,我装的ubuntu是32位的,所以JDK应该装32位的。
root@easonl-Lenovo-IdeaPad-S400:/opt# cd module/
root@easonl-Lenovo-IdeaPad-S400:/opt/module#
root@easonl-Lenovo-IdeaPad-S400:/opt/module# hadoop version
/opt/module/hadoop-2.7.2/bin/hadoop: 行 166: /opt/module/jdk1.7.0_80/bin/java: cannot execute binary file: 可执行文件格式错误
/opt/module/hadoop-2.7.2/bin/hadoop: 行 166: /opt/module/jdk1.7.0_80/bin/java: 成功
java自带的JDK安装在 /usr/lib/jvm/java-8-openjdk-i386/jre/lib/rt.jar(自己下载的JDK 路径 :/opt/module/JDK1.8#)
配置时需要把/opt/module/hadoop-2.7.2/etc/hadoop里面的,hadoop-env.sh 进行文件编辑,把${JAVA_HOME}修改为JDK路径(我修改为:/opt/module/JDK1.8)
8、配置了32位的JDK之后,代表成功
root@easonl-Lenovo-IdeaPad-S400:/home/easonl# source /etc/profile
root@easonl-Lenovo-IdeaPad-S400:/home/easonl# hadoop
Usage: hadoop [--config confdir] [COMMAND | CLASSNAME]
CLASSNAME run the class named CLASSNAME
or
where COMMAND is one of:
fs run a generic filesystem user client
version print the version
jar <jar> run a jar file
note: please use "yarn jar" to launch
YARN applications, not this command.
checknative [-a|-h] check native hadoop and compression libraries availability
distcp <srcurl> <desturl> copy file or directories recursively
archive -archiveName NAME -p <parent path> <src>* <dest> create a hadoop archive
classpath prints the class path needed to get the
credential interact with credential providers
Hadoop jar and the required libraries
daemonlog get/set the log level for each daemon
trace view and modify Hadoop tracing settings
Most commands print help when invoked w/o parameters.
root@easonl-Lenovo-IdeaPad-S400:/home/easonl#
期间遇到的问题:
1、配置好环境变量后,缺少JDK ?
root@easonl-Lenovo-IdeaPad-S400:/etc/profile.d# source /etc/profile
C:未找到命令
C:未找到命令
C:未找到命令
easonl@easonl-Lenovo-IdeaPad-S400:/$ hadoop version
Error: JAVA_HOME is not set and could not be found.
2、笔记中修改8个配置文件是处理了一个神码问题?为什么要修改?做了一件什么事情?修改方式是vi + 文件名?
3、配置JDK 的时候,提示下图,jdk1.8.0_144是需要提前下载并且放在/opt目录下吗
easonl@easonl-Lenovo-IdeaPad-S400:/opt/hadoop-2.7.2/etc/hadoop$ vim /etc/profile程序 'vim' 已包含在下列软件包中:
* vim
* vim-gnome
* vim-tiny
* vim-athena
* vim-athena-py2
* vim-gnome-py2
* vim-gtk
* vim-gtk-py2
* vim-gtk3
* vim-gtk3-py2
* vim-nox
* vim-nox-py2
请尝试:sudo apt install <选定的软件包>
4、mySQL的安装,是需要按照提示先安装yum?方式就是sudo apt install yum?是否需要提前下载?
easonl@easonl-Lenovo-IdeaPad-S400:/$ yum -y install wget
程序“yum”尚未安装。 您可以使用以下命令安装:
sudo apt install yum
5、HDFS不是需要单独下载一个包?mapreduce没看到!
Hadoop入门指南:安装配置与关键技术详解
本文详细介绍了如何从下载Hadoop开始,包括HDFS、MapReduce、Hive和HBase的概述,以及在Ubuntu上搭建Hadoop环境的过程,重点讲述了配置步骤、遇到的问题及解决方案,如JDK版本选择和环境变量设置。
1956

被折叠的 条评论
为什么被折叠?



