《大数据基础》关于hdfs与spark-shell的一些操作

本文记录了学习《大数据基础》过程中,使用Linux系统操作Hadoop和Spark Shell的步骤,包括启动Hadoop和Spark Shell,创建HDFS目录,上传文件,读取文件并进行行数统计,筛选特定内容,进行词频统计,降序排列,保存到HDFS,文件合并,下载到本地,并展示最终结果。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

刚学这本书,记录一下Linux系统一些操作,方便以后自己回顾学习。

1、首先启动hadoop

2、启动spark shell

3、 在hdfs中创建多级目录/user/exam

并将/usr/local/spark中的LICENSE上传到hdfs中的user/exam中并检查是否已上传

4、然后继续在spark-shell界面操作

用spark-shell命令读取hdfs中user/exam/LICENSE文件并读取行数(这里网上有一些版本,最后运行了(“hdfs:///)需要三个斜线的是正确的。)

299行

5、 筛选出只包含(BSD)的行并输出行数

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值