PySpark简明教程 02 pyspark实战 入门例子

24 篇文章 27 订阅 ¥9.90 ¥99.00
本文提供了一个PySpark入门实例,通过分析深圳股市股息率数据,找出股息率超过3%的行业。首先介绍了实验文件,接着演示如何使用pyspark读取数据,将本地文件上传到HDFS,然后展示了如何处理数据并查找高股息率的行业,最后讲解了如何使用pyspark进行数据输出。
摘要由CSDN通过智能技术生成

一个简单的例子带你进入pyspark的大门,对!我们的入门程序不是wordcount,也不是hello world。我们不一样、不一样。

目标:找到股息率大于3%的行业,将结果输出到指定目录。

1 实验文件

文件为深圳股市的股息率统计(截止20210531),下载链接。列出了主要行业的分红情况,从中可以看出哪些是铁公鸡,哪些是现金奶牛。

准备工作,把这个文件上传到HDFS或其他『炫酷』的分布式文件系统。

为什么实验从这里开始,因为在通常情况下,我们要分析的数据都是海量的,都是在分布式文件系统里存着的。

一条命令将本地文件上传到HDFS

hadoop fs -put localfile /yourHdfsPath/0531/
或者
hadoop fs -put localfile hdfs://host:port/yourHdfsPath/0531/

2 pyspark输入

找到spark的客户端,运行bin目录下的pyspark,打开pyspark的shell命令窗口。后续会介绍pyspark详细启动参数。

df = spark.re
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

只要开始永远不晚

谢谢打赏~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值