刚学这本书,记录一下Linux系统一些操作,方便以后自己回顾学习。
1、首先启动hadoop
2、启动spark shell
3、 在hdfs中创建多级目录/user/exam
并将/usr/local/spark中的LICENSE上传到hdfs中的user/exam中并检查是否已上传
4、然后继续在spark-shell界面操作
用spark-shell命令读取hdfs中user/exam/LICENSE文件并读取行数(这里网上有一些版本,最后运行了(“hdfs:///)需要三个斜线的是正确的。)
299行
5、 筛选出只包含(BSD)的行并输出行数