spark python 练习（一）

最新推荐文章于 2022-07-02 17:55:11 发布

划过的梦神

最新推荐文章于 2022-07-02 17:55:11 发布

阅读量1.9k

点赞数 2

分类专栏： machine learning 机器学习文章标签： python spark 大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Anne999/article/details/70157538

版权

这篇博客记录了学习《Spark快速大数据分析》时的Python练习，包括Spark入门、RDD操作、键值对处理等内容。介绍了如何创建、转化和行动RDD，以及持久化和键值对操作如reduceByKey和join。

摘要由CSDN通过智能技术生成

最近学习《Spark快速大数据分析》这本书，记录一下练习的例子，可以在忘记时查看。
如果在pycharm里写pyspark,配置可以参考文章：
http://blog.csdn.net/huobanjishijian/article/details/52287995。
spark版本2.02,python 版本2.7.5
spark官方文档地址：http://spark.apache.org/docs/latest/quick-start.html
python lambda，内联函数简介：
http://blog.csdn.net/Anne999/article/details/66972451

一、入门基础练习

1.行数统计
这里写图片描述
SparkContext对象创建与集群的连接。
2.筛选

pythonLines = lines.filter(lambda line: "Python" in line)

另一种写法：

def hasPython(line):
    return "Python" in line
pythonLines = lines.filter(hasPython)

spark的fliter可以在集群上运行。
3.python初始化的写法

from pyspark import SparkConf, SparkContext
conf = SparkConf().setMaster("local").setAppName("My App")
sc = SparkContext(conf = conf)

或者

 sc = SparkContext(appName="PythonWordCount")

第二种更加简洁些。传递的两个参数：
集群url:告诉spark如何连接到集群，local单机运行。
appName：应用名字。

最低0.47元/天解锁文章

划过的梦神

关注

2
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

划过的梦神 CSDN认证博客专家 CSDN认证企业博客

码龄10年

95: 原创

12万+: 周排名

223万+: 总排名

31万+: 访问

: 等级

2886: 积分

177: 粉丝

146: 获赞

20: 评论

558: 收藏

私信

关注

热门文章

分类专栏

最新评论

逻辑题（一）
m0_56521178: 第二题警察小偷一家人的解题我怎么搞不懂呢，3我也勉强理解，4的时候，左边省的警察小偷和妈妈俩女儿，他爸不在他妈没伤害女儿我当她是因为有警察小偷在，那右岸明明剩下爹和俩儿子了，妈妈不在父亲会伤害儿子吗不是？咋没害呢？第一个我也没想明白，不能看剩下的帽子吧？第三步，“没人做答，戴白帽子的人猜到戴黑帽子看到的是一黑一白否则他肯定说自己带的白帽子）”这儿的逻辑也不对，我去找找其他的答案，我乱了
R语言统计分析-方差分析
此昵称已存在，无法更新: Estimated effects may be unbalanced 这种因为样本数据不平衡吗
实验八　路由器静态路由配置
qq_45989975: R2没有设置时钟频率
实验六　利用三层交换机实现VLAN间路由
汐溟: 粗鲁了，汗
实验六　利用三层交换机实现VLAN间路由
汐溟: 我想知道192.168.1.3是哪个地址？为啥会通向PC2

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。