hadoop教程一

hadoop学习篇一:hadoop安装

hadoop

Hadoop 是Apache基金会下一个开源的分布式计算平台,它以分布式文件系统HDFS和MapReduce算法为核心,为用户提供了系统底层细节透明的分布式基础架构。

环境配置

所需软件

  1. java 环境,建议选择sun公司发行的java版本
  2. ssh必须安装,并且保证sshd一直运行,以便于用hadoop脚本管理远端hadoop守护进程
  3. IDEA编辑工具安装, maven安装
  4. hadoop安装
  5. 服务器搭建

安装步骤

  1. java环境安装
    java下载官网地址:https://www.oracle.com/technetwork/java/javase/downloads/index.html
    如图下载对应系统的JDK:
    在这里插入图片描述
    在这里插入图片描述
    安装好之后,将其加入到环境变量
    在这里插入图片描述
    检验安装是否正确
    在终端中输入java -version
    在这里插入图片描述

  2. ssh安装,我是用的win10专业版,自带ssh。其他版本自行下载即可。

  3. 编辑工具,这里使用的是IntelliJ IDEA 2019.1。
    安装maven,maven是一种全新的项目构建方式,主要做了统一开发规范与工具和统一管理jar包;而且其还可以管理项目的整个生命周期,包括编译,构建,测试,发布,报告等等。下载地址:http://maven.apache.org/release-notes-all.html
    将下载的压缩包解压,同JDK环境变量配置一样,将解压后的文件夹中bin的绝对路径添加到环境变量,如:C:\Program Files\Java\apache-maven-3.6.0\bin
    检验是否安装成功
    在终端中输入: mvn -v
    ![

](https://img-blog.csdnimg.cn/20190410130001339.PNG)
4. hadoop安装(前提安装并配置好java环境)
一. 创建hadoop用户

$ sudo useradd -m hadoop -s /bin/bash  #创建hadoop用户,并使用/bin/bash作为shell
$ sudo passwd hadoop                   #为hadoop用户设置密码,之后需要连续输入两次密码
$ sudo adduser hadoop sudo             #为hadoop用户增加管理员权限
$ su - hadoop                          #切换当前用户为用户hadoop
$ sudo apt-get update                  #更新hadoop用户的apt,方便后面的安装

二. 安装ssh,设置ssh无密码登录

$ sudo apt-get install openssh-server   #安装SSH server
$ ssh localhost                         #登陆SSH,第一次登陆输入yes
$ exit                                  #退出登录的ssh localhost
$ cd ~/.ssh/                            #如果没法进入该目录,执行一次ssh localhost
$ ssh-keygen -t rsa

输入完 $ ssh-keygen -t rsa 语句以后,需要连续敲击三次回车
其中,第一次回车是让KEY存于默认位置,以方便后续的命令输入。第二次和第三次是确定passphrase,相关性不大。
之后输入:

$ cat ./id_rsa.pub >> ./authorized_keys #加入授权
$ ssh localhost                         #此时已不需密码即可登录localhost,并可见下图。如果失败则可以搜索SSH免密码登录来寻求答案

三. 安装hadoop

$ sudo tar -zxvf  hadoop-2.6.0.tar.gz -C /usr/local    #解压到/usr/local目录下
$ cd /usr/local
$ sudo mv  hadoop-2.6.0    hadoop                      #重命名为hadoop
$ sudo chown -R hadoop ./hadoop                        #修改文件权限

给hadoop配置环境变量,将下面代码添加到.bashrc文件:

export HADOOP_HOME=/usr/local/hadoop
export CLASSPATH=$($HADOOP_HOME/bin/hadoop classpath):$CLASSPATH
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

执行source ~/.bashrc 使设置生效,并输入hadoop version 查看安装是否成功

  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Informatica是数据集成和数据管理软件的领先提供商,Hadoop是一个开源的分布式计算框架。Informatica Hadoop教程是指为使用Informatica软件进行Hadoop数据集成和管理的培训和指南。 Informatica Hadoop教程可以帮助用户了解如何使用Informatica软件与Hadoop整合,以实现更高效、更灵活的数据处理和分析。教程通常包括如何安装和配置Informatica组件和Hadoop集群,以及如何使用Informatica PowerCenter来连接和操作Hadoop集群中的数据。 在教程中,学习者将学会如何使用Informatica的图形化界面来设计和执行数据抽取、转换和加载(ETL)流程,并将数据从Hadoop集群中的不同数据源移动到目标系统。教程还会介绍如何进行数据清洗、数据转换和数据聚合等数据处理操作。 此外,Informatica Hadoop教程还会介绍如何优化和调整Informatica作业以实现更好的性能,并介绍如何使用Informatica的监控和管理工具来监视和管理Hadoop集群中的作业。 通过完成Informatica Hadoop教程,用户将能够熟练地使用Informatica软件来处理大规模的数据,并能够利用Hadoop分布式计算的优势来实现更快速、更高效的数据处理和分析。这对那些需要处理大数据量的企业和组织来说是非常有价值的。 总结来说,Informatica Hadoop教程提供了一种学习如何使用Informatica软件和Hadoop集群进行大数据集成和管理的方法,帮助用户更好地利用大数据的价值和潜力。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值