基于centos7 ,hadoop2.7.3, spark-2.4.4-bin-hadoop2.7.tgz
一.spark shell
在spark shell中编写wordcount程序读取本地文件
1、准备数据源(创建目录,创建文件)
2.代码:
--注意修改文件地址--
sc.textFile("/opt/spark/spark-2.4.4-bin-hadoop2.7/data/word.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).sortBy(_._2,false).collect
二. 读取hdfs文件
1.在hadoop创建目录和文件
2.代码
sc.textFile("hdfs://hy:9000//tmp/userzrt/111.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).sortBy(_._2,false).collect
三.Idea中编写wordcount
1.Lambada表达式编写wordcount
(1)创建maven项目
(2)配置maven仓库
(3)导入依赖
<dependencies>
<dependency>
<groupId>org.apache.spark</groupId>
<artifactId>spark-core_2.12</artifactId>
<version>2.4.3</version>
</dependency>
</dependencies>
(4)创建数据目录(datas)
(5)创建包和类