在Spark-Shell中实现单词统计

最新推荐文章于 2022-07-01 08:33:59 发布

aicloudgo

最新推荐文章于 2022-07-01 08:33:59 发布

阅读量1.2k

点赞数 1

分类专栏：大数据

本文链接：https://blog.csdn.net/evelen/article/details/107441922

版权

本文通过在Spark-Shell中操作单词文件word.txt，详细介绍了如何进行单词统计，并对比了groupBy、groupByKey和reduceByKey在处理过程中的差异。

摘要由CSDN通过智能技术生成

单词文件word.txt，单词以tab分隔

java	python	hadoop	scala
mysql	hdfs	hdfs	mapreduce
yarn	hadoop	hadoop	scala
hive	hive	sqoop	hbase
kafka	hadoop	hbase	hadoop
hive	flume	redis	redis
java	python	scala	sqoop
spark	spark	scala	zookeeper
flume	hadoop	hdfs	hive

# 上传word.txt文件
cd /opt/test_data
rz

# 查看文件内容
cat word.txt

# 启动HDFS
cd /opt/apache_hadoop/hadoop-2.7.3
sbin/hadoop-daemon.sh start namenode
sbin/hadoop-daemon.sh start datanode

# 查看进程
jps

# 上传文件到HDFS
cd /opt/apache_hadoop/hadoop-2.7.3

# 执行上传 bin/hdfs dfs -put 本地路径 hdfs路径
bin/hdfs dfs -put /opt/test_data/word.txt /word/

# 查看文件内容
bin/hdfs dfs -text /word/word.txt

启动spark-shell

# 启动spark
cd /opt/apache_hadoop/spark-2.2.1
bin/spark-shell

# 启动成功后，在 scala> 窗口下编写代码
 
1. 读取数据形成RDD（弹性分布式数据集）

读取本地路径文件方式: file//+本地路径
val path = "file///opt/test_data/word.txt"

读取HDFS上的文件: /+文件路径
val path = "/word/word.txt"
输出