大数据学习-Hadoop
1.大数据概念
- 现状分析:实时计算
- 原因分析:离线计算
- 预测分析:机器学习(对未来趋势进行预测)
2.分布式与集群
- 分布式:多台机器,不同组件
分布式存储,分布式集群,多台机器
- 集群:多台机器,相同组件
3.Hadoop(卡大爷创建)
- hadoop简介
4.docker搭建hadoop集群
-
1.Docker安装
-
2.拉取hadoop集群镜像
-
3.克隆仓库并修改start.sh中的开放端口文件
-
4.桥接网络 docker network ls
-
5.运行容器并进入容器:docker exec -it hadoop-master bash
-
6.启动hadoop:./start-hadoop.sh
-
7.页面测试:本机127.0.01
-
HDFS集群:name node: [your ip address]:50070/ 浏览文件系统
-
YARN集群:resource manager: [your ip address]:8088/ 监控集群资源:MapReduce,Sprark,Flink等
-
8.测试 word count:word count 是一个测试 hadoop 的 shell 脚本,即计算文本中的单词个数
-
docker进入hadoop容器命令
docker exec -it hadoop-master bash
- Hadoop内部命令 :推荐全部使用 hadoop fs
创建文件夹命令:hdfs dfs -mkdir /hadoop
上传命令:hdfs dfs -put file.txt /hadoop/file.txt hdfs dfs -put file1.txt /hadoop/file1.txt
删除命令:hdfs dfs -rm -r /hadoop/file.text(可删除文件与文件夹)
查看文件夹命令:hadoop fs -ls /hadoop
查看文件内容:hdfs dfs -cat /hadoop/file.txt
- Hadoop集群
一个大哥带几个小弟干活:hadoop-Master,hadoop-slave1,hadoop-sla