- Hadoop
广义:以hadoop软件为主的生态圈
狭义:hadoop软件
大数据网站:hadoop.apache.org
hive.apache.org
spark.apache.org
flink.apache.org
hadoop软件:
1.x
2.x 生产用2.6
3.x
hadoop2.x组件:
(1)hdfs: 存储 分布式文件系统 底层 生产
其它的 hive/hbase
(2)mapreduce: 分布式计算,生产不用,因为开发难度高、计算慢(shuffle 磁盘)
代替 hive sql/spark
(3)yarn: 资源(内存+core)+作业(job)调度管理系统 生产
但:
apache hadoop 不选择部署
企业一般选择CDH、Ambari、hdp部署
CDH:
cloudera公司 将Apache hadoop-2.6.0源代码,修复bug,新功能,编译为自己的版本cdh5.7.0
Apache hadoop-2.6.0 --》hadoop-2.6.0-cdh5.7.0 - 部署
(1)添加sudo权限的无密码访问的hadoop用户
useradd hadoop
cat /etc/sudoers |grep hadoop
su - hadoop
(2)下载
mkdir app
cd app
wget 下载
tar -xzvf 解压
Required software for Linux include:
Java™ must be installed. Recommended Java versions are described at HadoopJavaVersions.
ssh must be installed and sshd must be running to use the Hadoop scripts that manage remote Hadoop daemons.
(3)JAVA1.7部署
which java 查看java
java -version 查看java版本
(4)准备
启动三种模式
Local (Standalone) Mode: 单机 没有进程 不用
Pseudo-Distributed Mode: 伪分布式 1台机器 进程 学习
Fully-Distributed Mode: 分布式 进程 生产
(5)配置文件
(6)无密码ssh
注意权限改为600
(7)环境变量
格式化文件系统
启动NameNode进程和DateNode进程
云主机,开启防火墙
【大数据零基础】大数据入门1
最新推荐文章于 2024-05-14 08:13:45 发布