Spark简单使用

Spark的一个主要特点就是可以在内存中使用,因此他的计算速度比较快。
在初学之前按照http://spark.apache.org/docs/latest/ quick-start.html)中的示例来做一遍。先来初步理解一下操作流程。
1.首先是搭建Spark,网上有很多教程,cmd中最后运行pyspark

出现这中界面就是安装成功了

我们首先来分析Spark文件夹中的“README.md”文件

lines = sc.textFile("README.md") # 创建一个名为lines的RDD  
>>> lines.count() # 统计RDD中的元素个数 127 
>>> lines.first() # 这个RDD中的第一个元素,也就是README.md的第一行

这里的语法似与python,spark的驱动器程序就是spark shell程序,驱动器程序通过sparkcontext来访问spark, 上文的sc是spark启动时自动创建的一个sc变量,

我们可以看下其类型,建立一个筛选实例

这里写图片描述

在python中有lambda 函数,当然C中也有,它代表的是匿名函数

相当于

     def   haspython(line):
                  returnPython" in line
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值