10小时入门大数据(三)------分布式文件系统HDFS##
一、hadoop环境
https://blog.csdn.net/mys_mys/article/details/82667669
二、配置hadoop的环境变量步骤:
三、HDFS shell 常用命令
hadoop shell的基本使用:
hadoop fs、hdfs fs
四、hadoop命令的使用:
1)在data中创建一个文本:vi hello.txt
2)查看:cat hello.txt
3)查看是否无内容:hadoop fs -ls /
4)传入文本:hadoop fs -put hello.txt /
5)检查是否传入成功:hadoop fs -ls /
6)查看文本内容:hadoop fs -text /hello.txt
l
创建文件夹
1)hadoop fs -ls /test
2)不能直接创建递归文件夹
eg.hadoop fs -mkdir/text/a/b(错误)
应该这样:hadoop fs -mkdir -p /test/a/b
3)查看创建的文件夹:
hadoop fs -ls /test
hadoop fs -ls /test/a
4)递归查看:
hadoop fs -lsr /
五、文件配置
<!--配置CDH仓库-->
<repositories>
<repository>
<id>cloudera</id>
<url>https://repository.cloudera.com/artifactory/cloudera-repos/</url>
</repository>
</repositories>
配置依赖的包
<properties>
<project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>
<hadoop.version>2.6.0-cdh5.7.0</hadoop.version>
</properties>
<dependencies>
<!-- hadoop依赖 -->
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-client</artifactId>
<version>${hadoop.version}</version>
</dependency>
<!-- 单元测试依赖 -->
<dependency>
<groupId>junit</groupId>
<artifactId>junit</artifactId>
<version>4.10</version>
<scope>test</scope>
</dependency>
</dependencies>
五、java API操作HDFS文件
https://blog.csdn.net/mys_mys/article/details/82792346
六、HDFS文件读写流程
七、HDFS的优缺点
https://blog.csdn.net/mys_mys/article/details/82792839