最近学习《Spark快速大数据分析》这本书,记录一下练习的例子,可以在忘记时查看。
如果在pycharm里写pyspark,配置可以参考文章:
http://blog.csdn.net/huobanjishijian/article/details/52287995。
spark版本2.02,python 版本2.7.5
spark官方文档地址:http://spark.apache.org/docs/latest/quick-start.html
python lambda,内联函数简介:
http://blog.csdn.net/Anne999/article/details/66972451
一、入门基础练习
1.行数统计
SparkContext对象创建与集群的连接。
2.筛选
pythonLines = lines.filter(lambda line: "Python" in line)
另一种写法:
def hasPython(line):
return "Python" in line
pythonLines = lines.filter(hasPython)
spark的fliter可以在集群上运行。
3.python初始化的写法
from pyspark import SparkConf, SparkContext
conf = SparkConf().setMaster("local").setAppName("My App")
sc = SparkContext(conf = conf)
或者
sc = SparkContext(appName="PythonWordCount")
第二种更加简洁些。传递的两个参数:
集群url:告诉spark如何连接到集群,local单机运行。
appName:应用名字。