spark 简单实战_spark入门系列教程二——简单入门实例

weixin_39833454

于 2020-12-22 18:35:09 发布

阅读量235

点赞数

文章标签： spark 简单实战

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39833454/article/details/111860627

版权

可以用java、python、scala、R来编写spark程序，spark是用scala编写的，所以更推荐使用scala，而且scala开发效率较高，所以示例使用scala开发一个简单的spark程序。

1.开发环境准备

1.1安装scala

本示例的开发环境是win10+jdk1.8+scala2.11.8；scala程序需要运行在jvm中，安装scala前需要先安装jdk，然后到scala官网https://www.scala-lang.org/download/下载安装包进行安装。

1.2安装hadoop

在github上 https://github.com/steveloughran/winutils 下载完整的包，并把对应hadoop/bin目录下的文件拷到hadoop的bin目录下。

1.3安装scala插件

目前idea对scala支持比较好，推荐使用idea开发scala程序；使用idea开发scala程序需要先安装scala的插件；

在http://plugins.jetbrains.com/plugin/1347-scala下载scala的插件后，在settings->plugins里点击install plugin from disk 安装插件，下载插件注意先查看自己的idea的版本，要下载与自己idea版本匹配的scala插件；网速好的也可以直接在plugins的仓库里搜索进行安装。

2.新建工程

2.1新建maven工程

新建完成后,选中项目名称,按F4,在Global Libraries里点击"+"号,添加scala的sdk

2.2新建scala目录

添加完sdk后,在项目src\main目录下新建scala的目录;

然后按f4,打开Project Structure,将Moudles里面,将scala目录设置为source目录

2.3添加maven依赖

在dependency里加入如下依赖;(spark-core_2.11,这里的2.11指的是spark-core兼容scala的版本为2.11，这里的版本一定要与scala的版本对应，否则编译会报错)

3.开发

这里写一个简单的wordcount的示例。

3.1准备数据

新建一个txt文本文件,在里面输入若干单词,譬如这样:

3.2编码

新建一个scala object,命名为WordCount；

代码如下:

运行之后的结果：

到此一个最简单的spark程序就写完了，下一篇将简单地写一个spark sql实例；此外，spark的RDD、算子等信息，请到官网查看，比较全面，也比较权威。

weixin_39833454

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
spark 简单实战_spark入门系列教程二——简单入门实例

可以用java、python、scala、R来编写spark程序，spark是用scala编写的，所以更推荐使用scala，而且scala开发效率较高，所以示例使用scala开发一个简单的spark程序。1.开发环境准备1.1安装scala本示例的开发环境是win10+jdk1.8+scala2.11.8；scala程序需要运行在jvm中，安装scala前需要先安装jdk，然后到scala官网ht...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。