Spark实现WordCount

本文详细介绍了如何使用Spark实现WordCount。首先通过SparkConf设置应用信息和运行模式,然后创建SparkContext作为Spark功能入口。接着,从HDFS加载数据文件,使用textFile、flatMap、split操作拆分单词,通过map标记单词并计数,最后用reduceByKey合并相同单词的计数,通过foreach输出结果。
摘要由CSDN通过智能技术生成

首先,编写第一个Spark应用程序 ,我们是如何建立起来的,其入口在哪里呢,需要创建两个对象。

 一:val conf = new SparkConf()

                            .setAppName("WordCount")

                            .setMaster("local")

    创建SparkConf对象,设置Spark应用的配置信息。setAppName() 设置Spark应用程序在运行中的名字;如果是集群运行,就可以在监控页面直观看到我们运行的job任务。setMaster() 设置运行模式、是本地运行,设置为local即可;如果是集群运行,就可以设置程序要连接的Spark集群的master节点的url。

二:val sc = new SparkContext(conf)

创建SparkContext对象, 在Spark中,SparkContext是Spark所有功能的一个入口,你无论是用java、scala,甚至是python编写,都必须要有一个SparkContext,它的主要作用,包括初始化Spark应用程序所需的一些核心组件,包括调度器(DAGSchedule、TaskScheduler),还会去Spark Master节点上进行注册等。所以SparkContext在Spark应用中是很重要的一个对象。

 

现在假设我们HDFS上有一个数据文件data.txt文件,需要对其进行WordCount统计计算

第A步:val lines = sc.textFile("hdfs://") ,主要功能是加

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值