hadoop学习笔记---1

分布式

多个进程(可以在不同主机上)协同完成一个功能

hadoop

  • 可靠、可伸缩、分布式Apache开源软件–搜索引擎、海量数据
  • HDFS
    -hadoop的分布式文件系统
  • 去IOE趋势
    -IBM Oracle EMC
  • MapReduce
    -MR 映射和化简编程模型
  • 包含模块
    -Hadoop Common: The common utilities that support the other Hadoop modules.
    -Hadoop Distributed File System (HDFS™): A distributed file system that provides high-throughput access to application data.
    NN(name node存放目录) DN(data node存放数据) 2NN(2nd name node备份目录)
    -Hadoop YARN: A framework for job scheduling and cluster resource management.
    RM
    -Hadoop MapReduce: A YARN-based system for parallel processing of large data sets.
    -Hadoop Ozone: An object store for Hadoop.

big data

  • Volumn //体量大
  • Variaty //样式多
  • Velocity //速度快
  • Valueless //价值密度低----成本限制

hadoop安装

  • Java安装
apt-cache search openjdk//查看jdk列表
sudo apt-get install openjdk-11-jdk //安装合适版本

-结束后需要配置JAVA_HOME环境变量—使用whereis和file命令找到安装目录,在/etc/environment里添加安装路径,source environment进行更新

  • 安装hadoop
    -下载hadoop
sudo wget http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-2.8.5/hadoop-2.8.5.tar.gz

-tar -xcvf//解压
-设置hadoop环境变量,添加bin,sbin目录
-hadoop version

则安装成功,期间出现JAVA_HOME错误,重启解决,测试hadoop fs -ls出错,运行aptget-remove opnejdk-11-jdk后成功???谁知道怎么回事?

配置hadoop

  • Standalone/local
    -默认模式使用本地文件系统(测试时使用)
  • Pseudodistributed mode
    -伪分布式
    -配置core-site.xml
<?xml version="1.0" ?>
<configuration>
	<property>
		<name>fs.defaultFS</name>
		<value>hdfs://localhost/</value>
	</property>
</configuration>

-配置hdfs-site.xml(etc下)

<?xml version="1.0" ?>
<configuration>
	<property>
		<name>dfs.replication</name>
		<value>1</value>
	</property>
</configuration>

-配置mapred-site.xml

<configuration>
	<property>
		<name>mapreduce.framework.name</name>
		<value>yarn</value>
	</property>
</configuration>

-配置yarn-site.xml

<configuration>
	<property>
		<name>yarn.resourcemanager.hostname</name>
		<value>localhost</value>
	</property>
	<property>
		<name>yarn.nodemanager.aux-services</name>
		<value>mapreduce_shuffle</value>
	</property>
</configuration>
  • 配置SSH
    -无密码登录生成秘钥
ssh-keygen -t rsa -p '' -f ~/.ssh/   //生成密钥对
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys  //将公钥加入秘钥库(本机)
ssh localhost  

-格式化文件系统,启动所有进程,可以使用jps查看进程是否正常启动

hadoop namenode -format     //格式化文件系统,因为在临时目录下,当重启或者关机后需要重新格式化
start-all.sh
hadoop fs -mkdir -p /die/sa         //创建文件系统
hadoop fs -lsr /   //查看文件系统是否正常
stop-all.sh  //停止所有hadoop进程
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值