HDFS文件查看与创建

hdfs查看页面:http://192.168.42.5:50070/

1、查询命令

  hadoop dfs -ls /   查询/目录下的所有文件和文件夹

  hadoop dfs -ls -R 以递归的方式查询/目录下的所有文件

2、创建文件夹

  hadoop dfs -mkdir /test    创建test文件夹

3、创建新的空文件

  hadoop dfs -touchz /aa.txt   在/目录下创建一个空文件aa.txt

4、增加文件

  hadoop dfs -put aa.txt /test  将当前目录下的aa.txt文件复制到/test目录下(把-put换成-copyFromLocal效果一样-moveFromLocal会移除本地文件)

5、查看文件内容

  hadoop dfs -cat /test/aa.txt     查看/test目录下文件aa.txt的内容(将-cat 换成-text效果一样)

6、复制文件 

  hadoop dfs -copyToLocal /test/aa.txt .       将/test/aa.txt文件复制到当前目录(.是指当前目录,也可指定其他的目录)

7、删除文件或文件夹

  hadoop dfs -rm -r /test/aa.txt   删除/test/aa.txt文件(/test/aa.txt可以替换成文件夹就是删除文件夹)

8、重命名文件

  hadoop dfs -mv /aa.txt /bb.txt   将/aa.txt文件重命名为/bb.txt

9、将源目录中的所有文件排序合并到一个本地文件

  hadoop dfs -getmerge /   local-file  将/目录下的所有文件合并到本地文件local-file中

  • 4
    点赞
  • 42
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
在Apache Spark中,Hadoop Distributed File System (HDFS) 是一个分布式文件系统,用于存储大量数据。Spark利用HDFS作为其底层数据存储,特别是当处理大规模数据集时。要将HDFS中的文件转换为Resilient Distributed Dataset (RDD),你需要按照以下步骤进行: 1. **创建SparkContext**: 首先,确保你有一个已经配置好的`SparkContext`,它允许你与HDFS交互。 ```python from pyspark import SparkConf, SparkContext conf = SparkConf().setAppName("HDFS to RDD Example").setMaster("local[*]") # 或者设置为 yarn-client或其他集群模式 sc = SparkContext(conf=conf) ``` 2. **读取HDFS文件**: 使用`SparkContext`的`textFile()`或`binaryFiles()`方法,传入HDFS路径。 ```python # 读取文本文件 text_rdd = sc.textFile("hdfs://<your_cluster_address>/<file_path>") # 读取二进制文件 binary_rdd = sc.binaryFiles("hdfs://<your_cluster_address>/<file_path>") ``` 3. **转换为RDD**: 这些方法会返回一个`RDD`,其中每个元素是文件中的一行(对于文本文件)或一个元组(对于二进制文件,元组的第一个元素是键,第二个是值)。 4. **操作RDD**: 你可以对这些RDD进行各种转换和操作,如过滤、映射、联接等,就像操作本地文件一样。 **相关问题--:** 1. 除了`textFile()`,还有哪些方法可以用来读取HDFS文件? 2. RDD有哪些常用的操作方法? 3. 如何检查RDD是否包含特定的数据或者满足某种条件?
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值