Spark实践3（Spark的简单操作）

最新推荐文章于 2024-05-06 21:28:48 发布

隔壁的王二

最新推荐文章于 2024-05-06 21:28:48 发布

阅读量3.4k

点赞数

分类专栏： Spark实践

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/mikaell/article/details/79398256

版权

Spark实践专栏收录该内容

3 篇文章 0 订阅

订阅专栏

前面经过部署之后，Spark就可以用了。

怎么用呢？

可以有两个办法：

1.直接在shell中调用Spark提供的API方法，去做一些运算。

2.通过Scala，Java或者Python等语言的编程去调用Spark提供的api，去实现相关的功能，如流运算，图运算，SQL运算等。

由于实践应该是一个由浅入深的阶段，由于，我们可以先用shell来简单调用一下spark的api，看看spark究竟可以做些什么。

好，现在开始了。

1. 打开一个python shell

[root@FSB-Centos-213 spark-2.2.1-bin-hadoop2.7]# bin/pyspark
>>>

2. 我们先来几个简单的操作的：

a.比如，我们可以统计一下README.md 文件的行数

>>> lines = sc.textFile("README.md")
>>> lines.count()
103

注：看到这里，很多人也许会想，不就是统计个行数吗？有什么了不起的，随便一个JAVA SE API或者Shell不可以做吗？是的，如果只是统计一个文件的话，其实看不出spark有什么价值，我们假定一个这样的场景，有一个业务，由于流量很多，所以后端部署1000台机器，每个机器都产生了日志文件，我们需要统计所有机器的日志文件的行数，如果没有spark，我们就得文件一个一个的收集到一起，然后再串行得跑，现在有了spark，情况就简单多了，你可以用spark的API，很容易同时操作多台机器，就好像操作单台机器一样，这样一来，不但效率提上来了。本来不可能的事情也变成可能了。否则，怎么处理千万台机器的日志？这真的是一个令人头痛的问题。

上面这种操作，其实就是RDD操作。

所谓的RDD（Resilient Distributed Dataset），中文可以翻译为弹性分布式数据集，其实就是分布式的元素集合，这种操作，是Spark对数据的核心抽象，如果没有RDD，spark就无所谓spark了。在Spark中所有操作，最终都成为RDD操作，而Spark要做的，就是把RDD中的数据分发到集群上，并行执行操作，合并结果，仅此而已。

后面，我们会针对RDD操作进行进一步的实践。

隔壁的王二

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Spark实践3（Spark的简单操作）

前面经过部署之后，Spark就可以用了。怎么用呢？可以有两个办法： 1.直接在shell中调用Spark提供的API方法，去做一些运算。 2.通过Scala，Java或者Python等语言的编程去调用Spark提供的api，去实现相关的功能，如流运算，图运算，SQL运算等。由于实践应该是一个由浅入深的阶段，由于，我们可以先用shell来简单调用一下...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。