pyspark案例

小时不识月123

已于 2022-06-17 08:35:24 修改

阅读量6.1k

点赞数 1

分类专栏： pyspark 文章标签： spark hadoop big data

于 2018-09-25 11:33:08 首次发布

本文链接：https://blog.csdn.net/leitouguan8655/article/details/82837365

版权

pyspark 专栏收录该内容

16 篇文章 1 订阅

订阅专栏

pyspark本地环境配置教程配置成功后，可以通过spark dataframe笔记练习pyspark的用法，不过最好是通过spark官网练习语法使用。下面写个小案例，供自己以后查阅：

#!/usr/bin/python
# -*- coding: utf-8 -*-
"""
@author:
@contact:
@time:
"""
from __future__ import print_function
from pyspark.sql import SparkSession
import os, time

if __name__ == "__main__":
   # 设置spark_home环境变量，路径不能有中文、空格
   os.environ['SPARK_HOME'] = "E:/data_page/spark-2.0.2-bin-hadoop2.7"
   # 运行在本地（local），2个线程，一行写不完换行时用“\”
   spark = SparkSession.builder\
      .appName("test")\
      .master("local[2]")\
      .getOrCreate()
   # 如果想看函数源码，可以通过ctrl+点击函数的形式跳转到函数详情界面
   datas = ["hi I love you", "hello", "ni hao"]
   sc = spark.sparkContext
   rdd = sc.parallelize(datas)
   # 查看数据类型 type()
   print(type(datas))
   print(type(rdd))
   #获取总数，第一条数据
   print(rdd.count())
   print(rdd.first())
   # 每个spark运行会有一个监控界面（WEB UI4040），为了监控，让线程休眠一段时间，然后打开localhost:4040页面
   time.sleep(100)
   spark.stop()

打印的结果如下：

<type 'list'>
<class 'pyspark.rdd.RDD'>
3
hi I love you

localhost:4040界面如下：
在这里插入图片描述

小时不识月123

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
5
评论
pyspark案例

pyspark本地环境配置教程配置成功后，可以通过spark dataframe笔记练习pyspark的用法，不过最好是通过spark官网练习语法使用。下面写个小案例，供自己以后查阅：#!/usr/bin/python# -*- coding: utf-8 -*-"""@author:@contact:@time:"""from __future__ import print_fu......
复制链接

扫一扫