想要使用Spark来处理Hadoop下的数据,需要先对Hadoop shell进行了解,涉及的操作如下
查看hdfs 目录结构
hadoop fs -ls / 查看根目录下
注意这里的切换目录 只能通过路径进行比如想进入user目录,就执行
hadoop fs -ls /user
如果没有的目录,可以通过mkdir进行创建
hadoop fs -ls
创建目录和文件
hadoop fs -mkdir 绝对路径
从本地上传文件到hadoop hdfs
hadoop fs -put linux本地目录 hdfs目录
通过以上指令把/usr/README.md 文件上传到 hdfs的/user/jinxing/目录下
查看 文件内容 hadoop fs -cat 文件路径
删除文件或者目录
hadoop fs -rm -r /aaa/bbb/
下面在spark-shell下加载文件README.md 并进行 统计 和查看
加载目录文件
统计行数
查看第一行数据
以上仅是Spark 的API简单实用,能执行成功说明环境没有问题了,可以进行后续开发了