1.基本概念
专为离线和大规模数据分析而设计的,可编写和运行分布式应用处理大规模数据
2.MapReduce
分而治之的思想
一件事情,分给多个机器,每个机器做一部分工作(map),将它们做的工作汇总起来(reduce)
3.数据仓库的构架
底层HDFS,上面跑MapReduce/Tez/Spark,在上面跑Hive,Pig
4.常用命令
1.-ls 查看指定目录下的内容
hadoop fs –ls [文件目录]
2.-cat 显示文件内容
hadoop dfs –cat [file_path]
3.-put 将本地文件/文件夹存储至hadoop
hadoop fs –put [本地地址] [hadoop目录]
hadoop fs –put [本地目录] [hadoop目录]
4.-get 将hadoop上某个文件down至本地已有目录下
hadoop fs -get [文件目录] [本地目录]
5.-rm 删除hadoop上指定文件或文件夹
hadoop fs –rm [文件地址]
hadoop fs –rm [目录地址]
6.-mkdir 在hadoop指定目录内创建新目录
hadoop fs –mkdir /user/t
7.-du:统计文件夹的大小信息
-h 它会以更易读的格式(如KB、MB、GB)显示大小。
-s 用于汇总目录大小
hadoop fs -du -s -h /user/itcast/test
2.7 K /user/itcast/test
hadoop fs -du -h /user/itcast/test
1.3 K /user/itcast/test/README.txt
15 /user/itcast/test/jinlian.txt
1.4 K /user/itcast/test/nihao.txt