spark快速入门

何以愁

于 2022-10-10 19:15:00 发布

阅读量607

点赞数 6

文章标签： spark intellij-idea scala

本文链接：https://blog.csdn.net/qq_33202785/article/details/127250390

版权

spark快速入门(只是能跑)

准备工作
- hadoop本地和Scala配入环境变量
- 在idea中添加Scala插件
  -

开始创建项目

新建一个空项目

-
- 要自己建立一个文件夹，选择那个文件夹作为项目文件夹（工作区）
  -
创建一个模块
- 在右侧选中刚才创建的项目文件夹（如果没有看下一步）
- 或者如果没有这个就直接点击右上角的的file（如果在上一步点击了Moudel就看下一步）
  -
- 选中maven然后next
- 然后选中项目那个文件夹，在项目文件夹之下再创建一个Module文件夹
- 选中module文件夹并修改GroupId
- 注意：第一次创建maven项目会加载一会，等右下角读条完成之后开始下一步！
- 完成之后是这样
- 然后选中刚才新建的module，右击选中Add Framework Support…
- 拖动到最下面，选择Scala，点击Create
- 选择自己所配置的那个版本，然后点击ok即可
  - 此时已经是个Scala模块了，如果没有就重启IDEA
  - new 一个Scala Class，点击Scala Class之后选择object
  - 写个main方法测试一下，出结果不报错就成功完成配置

完成一次查询

首先跑完sql文件，自己要新建一个数据库，然后打开新建的数据库，再输入sql跑数据，因为数据较多，可能跑得较久，需要耐心等待（此为MySQL内容，不详细介绍）

此时需要一些依赖包，我们需要在maven中添加(如果本地仓库没有会进行下载，下载可能有点慢需要等待一下)

注意：看我所放的位置，下面有代码可以复制，不要粘贴错了

<dependencies>
        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-core_2.12</artifactId>
            <version>3.0.0</version>
        </dependency>
        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-sql_2.12</artifactId>
            <version>3.0.0</version>
        </dependency>
    
    
		<!--
			根据自己MySQL版本确定此依赖
			如果自己的MySQL是5.X的就把<version>标签一行改为<version>5.1.47</version>
		-->	
        <dependency>
            <groupId>mysql</groupId>
            <artifactId>mysql-connector-java</artifactId>
            <version>8.0.29</version>
        </dependency>
    </dependencies>

然后就在前面那个项目处new 一个Scala Class按着前面说诉步骤来,名字随意，此处就不细讲了

然后在内写入对应代码

def main(args: Array[String]): Unit = {
    val sparkSession = SparkSession.builder()
      .config("spark.testing.memory","2147480000")
      .appName("ReadMysql")
      .master("local[*]")
      .getOrCreate();
    val url = "jdbc:mysql://localhost:3306/你的数据库名";
    val df = sparkSession.read.format("jdbc").option("user","root").option("password","你的MySQL用户密码")
      .option("url",url).option("dbtable","(select * from orders where orderstatus = 'O') as mytable").load();
    df.printSchema();
    df.show(50);
    sparkSession.stop();
  }