在Spark-Shell中实现单词统计

本文通过在Spark-Shell中操作单词文件word.txt,详细介绍了如何进行单词统计,并对比了groupBy、groupByKey和reduceByKey在处理过程中的差异。
摘要由CSDN通过智能技术生成

单词文件word.txt,单词以tab分隔

java	python	hadoop	scala
mysql	hdfs	hdfs	mapreduce
yarn	hadoop	hadoop	scala
hive	hive	sqoop	hbase
kafka	hadoop	hbase	hadoop
hive	flume	redis	redis
java	python	scala	sqoop
spark	spark	scala	zookeeper
flume	hadoop	hdfs	hive
# 上传word.txt文件
cd /opt/test_data
rz

# 查看文件内容
cat word.txt

# 启动HDFS
cd /opt/apache_hadoop/hadoop-2.7.3
sbin/hadoop-daemon.sh start namenode
sbin/hadoop-daemon.sh start datanode

# 查看进程
jps

# 上传文件到HDFS
cd /opt/apache_hadoop/hadoop-2.7.3

# 执行上传 bin/hdfs dfs -put 本地路径 hdfs路径
bin/hdfs dfs -put /opt/test_data/word.txt /word/

# 查看文件内容
bin/hdfs dfs -text /word/word.txt

启动spark-shell

# 启动spark
cd /opt/apache_hadoop/spark-2.2.1
bin/spark-shell

# 启动成功后,在 scala> 窗口下编写代码
 
1. 读取数据形成RDD(弹性分布式数据集)

读取本地路径文件方式: file//+本地路径
val path = "file///opt/test_data/word.txt"

读取HDFS上的文件: /+文件路径
val path = "/word/word.txt"
输出
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值