Spark及HDFS环境下使用python的wordcount实例

最新推荐文章于 2024-08-07 00:04:41 发布

lpty

最新推荐文章于 2024-08-07 00:04:41 发布

阅读量5.6k

点赞数

分类专栏：杂七杂八文章标签： spark python hdfs hadoop wordcount

本文链接：https://blog.csdn.net/sinat_33741547/article/details/54709145

版权

杂七杂八专栏收录该内容

21 篇文章 0 订阅

订阅专栏

一前言

本文基于hadoop及spark完全分布式环境，详情查看以下文章：

1 Hadoop环境

2 spark环境

二实例

代码默认存放路径：/usr/local/work

1.在HDFS上已经存放了文档，上传方式在我另一篇文章中有，这里就不贴出来了

2.wordcount.py

from pyspark import SparkContext

inputFile = 'hdfs://master:9000/temp/hdin/*'        #测试文档
outputFile = 'hdfs://master:9000/temp/spark-out'    #结果目录

sc = SparkContext('local', 'wordcount')
text_file = sc.textFile(inputFile)

counts = text_file.flatMap(lambda line: line.split(' ')).map(lambda word: (word, 1)).reduceByKey(lambda a, b: a+b)
counts.saveAsTextFile(outputFile)

3.wordcount.sh

export CURRENT=/usr/local/work
$SPARK_HOME/bin/spark-submit $CURRENT/wordcount.py

4.执行

sh wordcount.sh

5.查看结果

cd $HADOOP_HOME
bin/hdfs dfs -cat /temp/spark-out/*

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

lpty

关注关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

pythonspark实例_[Spark][Python]Wordcount 例子

weixin_30771489的博客

02-03

291

[[emailprotected] ~]$ hdfs dfs -cat cats.txtThe cat on the matThe aardvark sat on the sofa[[emailprotected] ~]$mydata001=sc.textFile(‘cats.txt‘)mydata002=mydata001.flatMap(lambda line: line.split(" ...

spark-shell下的一个简单word count案例

破晓的成长之路

10-24

470

作为spark学习的经典案例，就像是第一次接触编程时的hello word。 1、启动spark-shell bin/spark-shell –master spark://chdp11:7077 –executor-memory 1g –total-executor-cores 4 2、数据准备 1.data scala spark hadoop java scala spark hado...

参与评论您还未登录，请先登录后发表或查看评论

入门岛2-python实现wordcount并进行云端debug

最新发布

qq_33867768的博客

08-07

887

书生大模型学习任务：1.实现一个wordcount函数，统计英文字符串中每个单词出现的次数。返回一个字典，key为单词，value为对应单词出现的次数。2.Vscode连接InternStudio debugTIPS：记得先去掉标点符号,然后把每个单词转换成小写。不需要考虑特别多的标点符号，只需要考虑实例输入中存在的就可以。

Spark学习笔记：基于HDFS的实时计算WordCount

lrxcmwy2的博客

09-16

356

基于HDFS实时计算WordCount

pyspark wordCount

CSUZWJ的博客

07-18

167

from google.colab import drive drive.mount(’/content/drive’) ch=open(’/content/drive/My Drive/Colab Notebooks/title.txt’,‘r’) import os #importing os to set environment variable def install_java...

【PySpark】Word Count：从零开始运行你的第一个Spark应用

qq_36643449的博客

05-11

704

一、安装 Spark 首先，我们来简单介绍一下如何在本地安装 Spark，以及用 Python 实现的 Spark 库——PySpark。 Spark 的 job 都是 JVM（Java Virtual Machine）的进程，所以在安装运行 Spark 之前，我们需要确保已经安装 Java Developer Kit（JDK）。在命令行终端中输入： java -version 如果命令行输出了某个 Java 的版本，那么说明你已经有 JDK 或者 JRE 在本地。如果显示无法识别这个命令，那么说明你还没

pythonspark实例_Spark的Python编程－简单示例

weixin_39882589的博客

11-30

1191

安装好Spark 后，自带了一些demo, 路径在Spark根目录/examples/src/main/python/里面有些例子，例如统计字数的 wordcount.pyimport sysfrom operator import addfrom pyspark import SparkContextimport sysreload(sys)sys.setdefaultencoding("utf...

大数据之谜Spark基础篇，Spark实现WordCount实例内幕详解

Spark_追求者的专栏

04-18

1009

温馨提示本公众号专注分享大数据技术Spark、Hadoop等，如果你是初学者、或者是自学者，这里都是可以提供免费资料，也可以加小编微信号：wusc35，小编可以给你学习上、工作上一些建议以及可以给你提供免费的学习资料！学习技术更重要的是在于学习交流！等你来...注：本公众号纯属个人公益号！免费分享所有学习资料！希望朋友多多支持！多多关注！回顾一下前面几节，我们已经讲解Spark的作用与优劣...

Spark实战演练：WordCount实例

Evankaka的专栏

09-15

6099

摘要：本文主要讲了如何使用Spark来运行一个wordCount实例1、本地运行实例 package com.lin.wordcount import org.apache.spark.SparkConf import org.apache.spark.SparkContext import org.apache.spark.SparkContext._ /** * 本地运行Spark *

spark编程基础python版实验报告_Spark2.1.0+入门：RDD编程(Python版)

weixin_39525865的博客

12-15

1093

通过前面几章的介绍，我们已经了解了Spark的运行架构和RDD设计与运行原理，并介绍了RDD操作的两种类型：转换操作和行动操作。同时，我们前面通过一个简单的WordCount实例，也大概介绍了RDD的几种简单操作。现在我们介绍更多关于RDD编程的内容。Spark中针对RDD的操作包括创建RDD、RDD转换操作和RDD行动操作。RDD创建RDD可以通过两种方式创建：* 第一种：读取一个外部数据集。比...

Spark内存计算引擎原理与代码实例讲解

程序员光剑

05-30

691

Spark内存计算引擎原理与代码实例讲解作者：禅与计算机程序设计艺术 1. 背景介绍 1.1 大数据处理的挑战随着数据量的爆炸式增长，传统的数据处理方式已经无法满足实时性和海量数据处理的需求。MapReduce等

向HDFS提交数据并读取测试WordCount案例

南望山下砖瓦工

04-28

1238

要使用hdfs需要切换到Hadoop安装目录下，然后使用命令 bin/hdfs dfs -ls / 可以查看对应节点hdfs文件系统下的目录结构接着将测试数据放到hdfs上，这里是将数据放到/testdata目录下 bin/hdfs dfs -put /word.txt /testdata 注意这里的word.txt是自己在namenode根目录创建的文件，内容如下：查看...

用pyspark开发一个WordCount程序

05-21

1660

一、一行代码实现WordCount并保存结果 hello.txt内容： sc.textFile("/opt/bigdatas/hello.txt").flatMap(lambda line: line.split("\t")).map(lambda word: (word, 1)).reduceByKey(lambda x, y: x + y).saveAsTextFile("/opt/bigdatas/result/wc/001") 统计结果：二、python代码实现WordCount impor

PySpark WordCount

weixin_33921089的博客

06-24

357

使用python编写pyspark的wordcount程序，使用spark-submit分别在local和yarn方式允许； 1.1、创建测试文件本地文件 $ cd ~/pyspark/PythonProject $ mkdir data $ cd data/ $ vim word.txt $ tail word.txt hadoop spark hive hive java python...

Spark WordCount 读写hdfs文件 (read file from hadoop hdfs and write output to hdfs)

热门推荐

caimo的专栏

04-14

2万+

1 Create development environment in eclipse (juno version at least) just install scala : help->install new software->add url: http://download.scala-ide.org/sdk/e38/scala29/stable/site 2

pySpark的worldCount

zhangsq1319

07-06

287

第一次通过python编写spark: 通过python编写spark需要通过pyspark这个类库来操作spark； pyspark官网：http://spark.apache.org/docs/latest/api/python/pyspark.html#pyspark.RDD 参考：https://blog.csdn.net/lc_1123/article/details/79007231 https://www.jianshu.com/p/b5e949261cfd https...

6. spark-submit

ant的博客

01-07

1463

将 wordcount.py 文件使用 spark-submit 来执行 1. 本地执行 2. yarn执行 wordcount.py 文件见下一节【 wordcount（pycharm）】 spark-submit 常用参数： --master yarn-client spark运行环境 --driver-memory 1G driver程序使用的内存 --executor-...

spark教程python案例_Spark实战(四)spark+python快速入门实战小例子(PySpark)

weixin_30596433的博客

01-30

785

由于目前很多spark程序资料都是用scala语言写的，但是现在需要用python来实现，于是在网上找了scala写的例子改为python实现1、集群测试实例代码如下：from pyspark.sql import SparkSessionif __name__ == "__main__":spark = SparkSession\.builder\.appName("PythonWordCoun...

spark 版 WordCount 程序分析

py_tamir的博客

01-20

305

目录 1、开发环境 idea+maven+spark 2、程序代码 3、集群提交 1、开发环境 idea+maven+spark 使用idea，创建maven工程，使用scala 编写程序，打包jar并运行在集群中 2、程序代码 package cn.learn.spark import org.apache.spark.{SparkConf, SparkContext} obj...

Python入门：Spark大数据处理与环境搭建详解

Python学习笔记——大数据之Spark简介与环境搭建 Spark是Apache组织中最受欢迎的大数据处理计算框架，其核心地位在于支持离线计算、交互式查询、数据挖掘、流式计算和图计算等多种大数据应用场景。Spark的设计理念...