hadoop2.7+spark2.4实现简单的wordcount案例

最新推荐文章于 2023-03-09 19:08:15 发布

LXH0305

最新推荐文章于 2023-03-09 19:08:15 发布

阅读量708

点赞数

本文链接：https://blog.csdn.net/qq_40343117/article/details/100986152

版权

配置scala+spark教程：https://blog.csdn.net/qq_40343117/article/details/100974950

1、首先进入`/usr/local/spark/`找到README.md文件上传到hadoop集群作为数据

输入

hadoop dfs -mkdir /scala
hadoop dfs -put /usr/locaal/spark/README.md /scala/

在这里插入图片描述

2、运行`/usr/local/spark/bin/spark-shell`

在这里插入图片描述
输入./bin/spark-shell运行进入spark命令行

3、输入命令实现wordcount

输入

val textFile=sc.textFile("hdfs://h01:9000/scala/README.md")
val wordCounts = textFile.flatMap(line=>line.split(" ")).map(word=>(word,1)).reduceByKey((a,b)=>a+b)
wordCounts.foreach(println)

这里的代码是读取集群的文件，按照设定的格式存入一个集合，然后遍历输出，下面我们画图详细解释一下：
在这里插入图片描述
成功显示：

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

LXH0305

关注关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

大数据学习之路，Spark的介绍、部署以及wordcount实例的实现（1）

qq_42559628的博客

04-10

1587

Spark简介什么是Spark？ Apache Spark是一种多语言引擎，用于在单节点机器或集群上执行数据工程、数据科学和机器学习。 Spark的发展 Spark的安装检查检查HDFS、YARN环境 [vagary@vagary ~]$ jps 4736 NameNode 5490 NodeManager 5106 SecondaryNameNode 4870 DataNode 5881 Jps 5375 ResourceManager 检查Java环境 [vagary@vagary ~]$ ja

Hadoop2.7集群配置Spark2.4.4

qq_40343117的博客

09-18

2919

Hadoop2.7集群配置Spark2.4.4 spark下载地址：https://www.apache.org/dyn/closer.lua/spark/spark-2.4.4/spark-2.4.4-bin-hadoop2.7.tgz scala下载地址：https://www.scala-lang.org/download/ （在网页最后） 1、配置Scala scala是spark的实现...

参与评论您还未登录，请先登录后发表或查看评论

spark2.4 wordCount程序

fhb292262794的博客

12-01

314

第一个spark wordcount程序，利用java8函数式编程实现： public class WordCountLocal { public static void main(String[] args) { SparkConf conf = new SparkConf() .setAppName("WordCountLocal")...

Spark实现WordCount案例

奔赴彼岸

01-14

463

RDD操作实现1.文本文件：方式一：没用正则处理的方式二：添加正则表达式方式三：利用sortBy()进行排序Spark sql实现导入隐式转换createOrReplaceTempView使用 1.文本文件： Preface “The Forsyte Saga” was the title originally destined for that part of it which is called “The Man of Property”; and to adopt it for the collec

hadoop2.7.0实践- WordCount

weixin_34128237的博客

08-04

121

环境要求说明：本文档为wordcount的mapreduce job编写及执行文档。操作系统：Ubuntu14 x64位 Hadoop：Hadoop 2.7.0 Hadoop官网：http://hadoop.apache.org/releases.html MapReduce參照官网步骤： http://hadoop.apache.org/docs/curren...

spark的wordcount案例实现以及原理

weixin_45793065的博客

07-04

926

spark的wordcount Local模式 1 、概述 Local模式就是运行在一台计算机上的模式，通常就是用于在本机.上练手和测试。它可以通过以下集中方式设置Master。 local:所有计算都运行在一- 个线程当中，没有任何并行计算，通常我们在本机执行一-些测试代码，或者练手，就用这种模式; local[K]:指定使用几个线程来运行计算，比如local[4]就是运行4个Worker线程。通常我们的Cpu有几个Core，就指定几个线程，最大化利用Cpu的计算能力; local[*]:这种模式

hadoop2.7.3+hive1.2.1+spark2.0.1性能测试

03-17

### Hadoop 2.7.3 + Hive 1.2.1 + Spark 2.0.1 性能测试知识点 #### 一、环境搭建与配置 **1.1 主机环境配置** - **修改主机名称：** - 通过编辑`/etc/sysconfig/network`文件来更改主机名，确保其符合实际需求...

大数据Hadoop、Hive、Kafka、Hbase、Spark等框架面经

m0_46689661的博客

12-05

9752

大数据Hadoop、Hive、Kafka、Hbase、Spark等框架面经

Spark 2.4.0 集成Hive 1.2.1

大数据技术分享

12-19

2791

Spark 2.4.0 集成Hive 1.2.1 更多资源 github: https://github.com/opensourceteams/spark-scala-maven-2.4.0 apache-hive-1.2.1-bin 安装: https://github.com/opensourceteams/apache-hive-1.2.1-bin 官网文档 https://spar...

构建高可用性的Spark 2.4集群环境

# 第一章：介绍Spark 2.4集群环境 ## 1.1 什么是Spark 2.4集群环境 Apache Spark是一个开源的分布式计算框架，旨在提供高性能的大规模数据处理能力。Spark 2.4集群环境指的是在多台计算机上运行Spark 2.4，通过...

spark-2.4.7-bin-hadoop2.7.tgz

03-19

spark2.4.7版本兼容hadoop2.7版本，官网上下载的话会很慢。

spark运行wordcount例子

10-31

本例子是让新手熟悉了解如果用idea开发程序，提交到spakr集群上读取hdfs数据这么一个流程。博客讲解链接：https://blog.csdn.net/cuicanxingchen123456/article/details/83573838

Hadoop集群+MySQL+hive+zookeeper+spark

11-16

集群搭建步骤详解。

hadoop+spark分布式集群搭建及spark程序示例.doc

07-02

hadoop+spark分布式集群搭建及spark程序示例，例子程序为用二项逻辑斯蒂回归进行二分类分析和一个简单的求平均的程序，两种不同的运行方式

【Hadoop】：HDFS的读写操作

极歌科技

01-05

812

一.HDFS的写(上传)操作所谓的写操作，那么就是将client的文件(可能是本地)写入到HDFS当中。写操作的流程如图所示：过程概述： 1.我们有一个大小为200mb的文件，在逻辑上将其分为两个block，并不是在实际当中进行分割(这里不知道为什么分为了128mb和72mb两个block，因为HDFS当中最小的block大小为64mb，这个72mb不知是怎么来的，准确来说Had...

Spark WordCount使用示例

12-07

1534

package com.sparktest import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} /** * 使用scala开发本地测试的Spark WordCount程序 */ object WordCount { def main(args: Array[String]

大数据分析入门-hadoop集群环境下 spark-2.4.3 on hadoop-2.7.7及scala-2.11.11部署并运行在hadoop集群

hadoop2.7+spark2.4实现简单的wordcount案例

配置scala+spark教程：https://blog.csdn.net/qq_40343117/article/details/100974950

1、首先进入/usr/local/spark/找到README.md文件上传到hadoop集群作为数据

2、运行/usr/local/spark/bin/spark-shell

3、输入命令实现wordcount

1、首先进入`/usr/local/spark/`找到README.md文件上传到hadoop集群作为数据

2、运行`/usr/local/spark/bin/spark-shell`