假设数据集demo.txt已经保存到linux本地文件系统.
HDFS正常启动后,将数据集上传到HDFS文件系统中:
1、查看HDFS文件系统根目录下的内容
./bin/hdfs dfs -ls /
2、在HDFS的根目录下创建input_spark目录
./hdfs dfs -mkdir /input_spark
3、查看目录是否创建成功
./hdfs dfs -ls /
4、把本地数据集上传到HDFS中
./hdfs dfs -put demo.txt /input_spark
数据上传完后,需要确认文件上传的大小和内容是否是一致的,执行以下命令:
./hdfs dfs -ls /input_spark