spark python 练习(一)

这篇博客记录了学习《Spark快速大数据分析》时的Python练习,包括Spark入门、RDD操作、键值对处理等内容。介绍了如何创建、转化和行动RDD,以及持久化和键值对操作如reduceByKey和join。
摘要由CSDN通过智能技术生成

    最近学习《Spark快速大数据分析》这本书,记录一下练习的例子,可以在忘记时查看。
    如果在pycharm里写pyspark,配置可以参考文章:
http://blog.csdn.net/huobanjishijian/article/details/52287995
spark版本2.02,python 版本2.7.5
spark官方文档地址:http://spark.apache.org/docs/latest/quick-start.html
python lambda,内联函数简介:
http://blog.csdn.net/Anne999/article/details/66972451

一、入门基础练习

1.行数统计
这里写图片描述
SparkContext对象创建与集群的连接。
2.筛选

pythonLines = lines.filter(lambda line: "Python" in line)

另一种写法:

def hasPython(line):
    return "Python" in line
pythonLines = lines.filter(hasPython)

spark的fliter可以在集群上运行。
3.python初始化的写法

from pyspark import SparkConf, SparkContext
conf = SparkConf().setMaster("local").setAppName("My App")
sc = SparkContext(conf = conf)

或者

 sc = SparkContext(appName="PythonWordCount")

第二种更加简洁些。传递的两个参数:
集群url:告诉spark如何连接到集群,local单机运行。
appName:应用名字。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值