spark快速入门

spark快速入门(只是能跑)

  • 准备工作

    • hadoop本地和Scala配入环境变量

      • 在这里插入图片描述

      • 在这里插入图片描述

      • 在这里插入图片描述

    • 在idea中添加Scala插件

      • 在这里插入图片描述

      • 在这里插入图片描述

      -在这里插入图片描述

  • 开始创建项目

    • 新建一个空项目

      -在这里插入图片描述

      • 要自己建立一个文件夹,选择那个文件夹作为项目文件夹(工作区)
        -在这里插入图片描述

      • 在这里插入图片描述

    • 创建一个模块

      • 在右侧选中刚才创建的项目文件夹(如果没有看下一步)

        • 在这里插入图片描述
      • 或者如果没有这个就直接点击右上角的的file(如果在上一步点击了Moudel就看下一步)
        -在这里插入图片描述

      • 选中maven然后next

        • 在这里插入图片描述
      • 然后选中项目那个文件夹,在项目文件夹之下再创建一个Module文件夹

        • 在这里插入图片描述
      • 选中module文件夹并修改GroupId

        • 在这里插入图片描述
      • 注意:第一次创建maven项目会加载一会,等右下角读条完成之后开始下一步!

      • 完成之后是这样

        • 在这里插入图片描述
      • 然后选中刚才新建的module,右击选中Add Framework Support…

        • 在这里插入图片描述
      • 拖动到最下面,选择Scala,点击Create

        • 在这里插入图片描述
      • 选择自己所配置的那个版本,然后点击ok即可

        • 在这里插入图片描述

        • 在这里插入图片描述

        • 此时已经是个Scala模块了,如果没有就重启IDEA

          • 在这里插入图片描述
        • new 一个Scala Class,点击Scala Class之后选择object

          • 在这里插入图片描述
        • 写个main方法测试一下,出结果不报错就成功完成配置

          • 在这里插入图片描述
    • 完成一次查询

      • 首先跑完sql文件,自己要新建一个数据库,然后打开新建的数据库,再输入sql跑数据,因为数据较多,可能跑得较久,需要耐心等待(此为MySQL内容,不详细介绍)

      • 此时需要一些依赖包,我们需要在maven中添加(如果本地仓库没有会进行下载,下载可能有点慢需要等待一下)

        • 注意:看我所放的位置,下面有代码可以复制,不要粘贴错了

        • 在这里插入图片描述

        • <dependencies>
                  <dependency>
                      <groupId>org.apache.spark</groupId>
                      <artifactId>spark-core_2.12</artifactId>
                      <version>3.0.0</version>
                  </dependency>
                  <dependency>
                      <groupId>org.apache.spark</groupId>
                      <artifactId>spark-sql_2.12</artifactId>
                      <version>3.0.0</version>
                  </dependency>
              
              
          		<!--
          			根据自己MySQL版本确定此依赖
          			如果自己的MySQL是5.X的就把<version>标签一行改为<version>5.1.47</version>
          		-->	
                  <dependency>
                      <groupId>mysql</groupId>
                      <artifactId>mysql-connector-java</artifactId>
                      <version>8.0.29</version>
                  </dependency>
              </dependencies>
          
      • 然后就在前面那个项目处new 一个Scala Class按着前面说诉步骤来,名字随意,此处就不细讲了

      • 然后在内写入对应代码

        • def main(args: Array[String]): Unit = {
              val sparkSession = SparkSession.builder()
                .config("spark.testing.memory","2147480000")
                .appName("ReadMysql")
                .master("local[*]")
                .getOrCreate();
              val url = "jdbc:mysql://localhost:3306/你的数据库名";
              val df = sparkSession.read.format("jdbc").option("user","root").option("password","你的MySQL用户密码")
                .option("url",url).option("dbtable","(select * from orders where orderstatus = 'O') as mytable").load();
              df.printSchema();
              df.show(50);
              sparkSession.stop();
            }
          
      • 最后效果

          df.show(50);
          sparkSession.stop();
        }
        
        
        
      • 最后效果

        • 在这里插入图片描述
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值