spark+mongodb大数据框架搭建

最新推荐文章于 2024-07-18 10:52:19 发布

JoeyDTChen

最新推荐文章于 2024-07-18 10:52:19 发布

阅读量8.3k

点赞数 2

文章标签： spark mongodb 大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/chenguohong88/article/details/77850882

版权

spark依赖环境

1. jdk 1.8

2. scala 2.11

3. hadoop 2.7(本文用mongodb取代Hadoop HDFS，不需要安装)

安装JDK

略。。

安装Scala

Scala官网地址：http://www.scala-lang.org

选择2.11版本下载

解压:

tar -zxf scala-2.11.11.tgz

配置环境变量：

vim /etc/profile

使配置生效：

source /etc/profile

验证是否安装成功：

scala -version

安装spark

spark 下载地址: http://spark.apache.org/downloads.html

这里可以看到spark默认构建于Scala2.11，依赖Hadoop2.7

安装过程与Scala类似，解压缩:

tar -zxvf spark-2.2.0-bin-hadoop2.7.tgz

配置环境变量:

配置spark：

进入spark安装目录conf, 执行命令:

1. cp spark-env.sh.template spark-env.sh

2. vim spark-env.sh

在文件最后加入jdk, scala环境变量

启动spark:

进入spark安装目录sbin，执行命令:

./start-all.sh

验证:

安装mongodb

略..

mongo-spark

文本使用mongo官方的mongo-spark连接器，连接spark、mongodb。

mongo-spark github地址: https://github.com/mongodb/mongo-spark?jmp=hero。

mongo-spark使用非常简单，使用时将mongo-spark包引入即可。下面使用spark-shell测试连接是否成功。

spark连接mongodb

进入spark安装目录bin, 执行以下命令:

  spark-shell
--conf "spark.mongodb.input.uri=mongodb://localhost:27017/dbName.collectionName?authSource=admin"   //mongodb数据源
--conf "spark.mongodb.output.uri=mongodb://localhost:27017/dbName.collectionName?authSource=admin" //使用mongodb保存分析后的数据
--packages org.mongodb.spark:mongo-spark-connector_2.10:2.2.0   //引入mongo-spark包

使用mongo-spark查询数据:

import com.mongodb.spark._
import org.bson.Document
MongoSpark.load(sc).take(10).foreach(println)

成功返回数据，说明spark连接mongodb成功。

本文到此结束。后续将继续研究基于spark+mongodb架构的大数据分析。

关注

2
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
spark+mongodb大数据框架搭建

spark+mongodb大数据框架搭建
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。