spark+mongodb大数据框架搭建

spark依赖环境

    1. jdk 1.8

    2. scala 2.11

    3. hadoop 2.7(本文用mongodb取代Hadoop HDFS,不需要安装)

 

安装JDK

   略。。


安装Scala

   Scala官网地址:http://www.scala-lang.org

    选择2.11版本下载


解压:

    tar -zxf scala-2.11.11.tgz

配置环境变量:

    vim /etc/profile


使配置生效:

   source /etc/profile

验证是否安装成功:

   scala -version



安装spark

   spark 下载地址: http://spark.apache.org/downloads.html


这里可以看到spark默认构建于Scala2.11,依赖Hadoop2.7

安装过程与Scala类似,解压缩:

   tar -zxvf spark-2.2.0-bin-hadoop2.7.tgz

配置环境变量:



配置spark:

   进入spark安装目录conf, 执行命令:

      1. cp spark-env.sh.template  spark-env.sh

      2. vim spark-env.sh

   在文件最后加入jdk, scala环境变量



启动spark:

    进入spark安装目录sbin,执行命令:

        ./start-all.sh

验证:


 安装mongodb

    略..


mongo-spark

  文本使用mongo官方的mongo-spark连接器,连接spark、mongodb。

  mongo-spark github地址: https://github.com/mongodb/mongo-spark?jmp=hero。

   mongo-spark使用非常简单,使用时将mongo-spark包引入即可。下面使用spark-shell测试连接是否成功。


spark连接mongodb

   进入spark安装目录bin, 执行以下命令:

      spark-shell
 --conf "spark.mongodb.input.uri=mongodb://localhost:27017/dbName.collectionName?authSource=admin"     //mongodb数据源
 --conf "spark.mongodb.output.uri=mongodb://localhost:27017/dbName.collectionName?authSource=admin"  //使用mongodb保存分析后的数据
 --packages org.mongodb.spark:mongo-spark-connector_2.10:2.2.0                                                             //引入mongo-spark包



使用mongo-spark查询数据:

    import com.mongodb.spark._
    import org.bson.Document
    MongoSpark.load(sc).take(10).foreach(println)


成功返回数据,说明spark连接mongodb成功。

本文到此结束。后续将继续研究基于spark+mongodb架构的大数据分析。


  • 2
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
本项目经测试过,真实可靠,请放心下载学习。这两个技术在大数据处理和Java Web开发中扮演着重要的角色。在此次总结中,我将回顾我所学到的内容、遇到的挑战和取得的进展。 首先,我开始了对Spark的学习。Spark是一个强大的分布式计算框架,用于处理大规模数据集。通过学习Spark,我了解了其基本概念和核心组件,如RDD(弹性分布式数据集)、Spark SQL、Spark Streaming和MLlib等。我学会了使用Spark编写分布式的数据处理程序,并通过调优技巧提高了程序的性能。在实践过程中,我遇到了一些挑战,比如调试复杂的数据流转和处理逻辑,但通过查阅文档和与同学的讨论,我成功地克服了这些困难。最终,我能够使用Spark处理大规模数据集,并通过并行化和分布式计算加速任务的执行。 其次,我开始了对Spring Boot的学习。Spring Boot是一种快速构建基于Spring框架的应用程序的方式。通过学习Spring Boot,我了解了其核心思想和基本原理,以及如何构建RESTful Web服务、使用数据库、进行事务管理等。我学会了使用Spring Boot快速搭建Java Web应用程序,并且能够运用Spring Boot的特性来简化开发流程。在学习的过程中,我遇到了一些挑战,比如配置文件的理解和注解的正确使用,但通过查阅官方文档和阅读相关书籍,我逐渐解决了这些问题。最终,我能够独立地使用Spring Boot开发Web应用程序,并运用其优秀的特性提高了开发效率。 总结来说,本学期我在Spark和Spring Boot方面取得了一定的进展。通过学习Spark,我掌握了分布式数据处理的基本原理和技巧,并通过实践应用到了大规模数据集的处理中。通过学习Spring Boot,我了解了现代化的Java Web开发方式,并通过实践构建了一些简单的Web应用程序。我还意识到在学习过程中遇到的困难和挑战是正常的,通过不断的努力和学习,我能够克服这些困难并取得进步。 在未来,我计划继续深入学习Spark和Spring Boot,扩展我的技术栈,提高自己的技能水平。我希望能够运用所学到的知识解决实际问题,并在项目中发挥作用。此外,我也希望能够不断拓宽自己的技术视野,学习其他相关的技术和框架,以便能够适应不同的项目需求。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值