PySpark WordCount

最新推荐文章于 2024-02-12 02:15:38 发布

weixin_33921089

最新推荐文章于 2024-02-12 02:15:38 发布

阅读量349

点赞数

文章标签：大数据 python 开发工具

原文链接：http://blog.51cto.com/balich/2132267

版权

使用python编写pyspark的wordcount程序，使用spark-submit分别在local和yarn方式允许；

1.1、创建测试文件

本地文件

$ cd ~/pyspark/PythonProject
$ mkdir data
$ cd data/
$ vim word.txt
$ tail word.txt 
hadoop spark hive
hive java python
spark perl hadoop
python RDD spark
RDD

HDFS文件

$ cd ~/pyspark/PythonProject
$ hadoop fs -put data /user/input/

1.2、编写spark wordcount程序

编写wordcount 程序

$ vim wordcount.py 

#!/usr/bin/env python
# -*- coding:utf-8 -*-

from pyspark import SparkContext, SparkConf

def CreateSparkContext():
    """创建sparkConf函数，设定app名字"""
    conf = SparkConf().setAppName("WordCount").set("spark.ui.showConsoleProgress", "false")
    sc = SparkContext(conf = conf)
    SetLogger(sc)
    SetPath(sc)
    return (sc)

def SetLogger(sc):
    """设置日志显示方式"""
    logger = sc._jvm.org.apache.log4j
    logger.LogManager.getLogger("org").setLevel(logger.Level.ERROR)
    logger.LogManager.getLogger("akka").setLevel(logger.Level.ERROR)
    logger.LogManager.getRootLogger().setLevel(logger.Level.ERROR)

def SetPath(sc):
    """定义全局path"""
    global Path
    if sc.master[0:5] == "local":
        Path = "file:/home/hadoop/pyspark/PythonProject"
    else:
        Path = "hdfs://node:9000/user/input/"

if __name__ == "__main__":
    print("开始执行wordcount...")
    sc = CreateSparkContext()
    print("开始执行读取文件...")
    textFile = sc.textFile(Path + "data/word.txt")
    print("执行map/reduce运算...")
    stringRDD = textFile.flatMap(lambda line:line.split(" "))
    countsRDD = stringRDD.map(lambda word:(word,1)).reduceByKey(lambda x,y:x+y)
    print("保存结果...")
    try:
        countsRDD.saveAsTextFile(Path + "data/output")
    except Exception as e:
        print("输出目录以及存在，请删除原目录！")
    print("结束...")
    sc.stop()

1.3、spark-submit 执行程序

1.3.1、 spark-submit 本地模式执行

执行命令

$ spark-submit wordcount.py

查看计算结果

$ cd ~/ipynotebook/data/
$ tree
.
├── output
│   ├── part-00000
│   └── _SUCCESS
└── word.txt

1 directory, 3 files
$ tail output/part-00000 
('hadoop', 2)
('spark', 3)
('hive', 2)
('java', 1)
('python', 2)
('perl', 1)
('RDD', 2)
('', 1)

1.3.2、spark-submit yanr 模式执行

执行命令

$ HADOOP_CONF_DIR=/opt/local/hadoop/etc/hadoop spark-submit --master yarn --deploy-mode client wordcount.py

yarn 执行情况

$ yarn application -list -appStates ALL

Total number of applications (application-types: [] and states: [NEW, NEW_SAVING, SUBMITTED, ACCEPTED, RUNNING, FINISHED, FAILED, KILLED]):1
                Application-Id      Application-Name        Application-Type          User       Queue               State         Final-State         Progress                        Tracking-URL
application_1530328746140_0001             WordCount                   SPARK        hadoop     default            FINISHED           SUCCEEDED             100%                                 N/A

查看计算结果

$ hadoop fs -cat /user/input/data/output/part-0000*
('python', 2)
('', 1)
('hadoop', 2)
('hive', 2)
('java', 1)
('spark', 3)
('perl', 1)
('RDD', 2)

转载于:https://blog.51cto.com/balich/2132267

weixin_33921089

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
PySpark WordCount

使用python编写pyspark的wordcount程序，使用spark-submit分别在local和yarn方式允许；1.1、创建测试文件本地文件$ cd ~/pyspark/PythonProject$ mkdir data$ cd data/$ vim word.txt$ tail word.txt hadoop spark hivehive java python...
复制链接

扫一扫