spark快速入门(只是能跑)
-
准备工作
-
hadoop本地和Scala配入环境变量
-
在idea中添加Scala插件
-
-
-
开始创建项目
-
新建一个空项目
-
-
要自己建立一个文件夹,选择那个文件夹作为项目文件夹(工作区)
-
-
-
创建一个模块
-
在右侧选中刚才创建的项目文件夹(如果没有看下一步)
-
或者如果没有这个就直接点击右上角的的file(如果在上一步点击了Moudel就看下一步)
- -
选中maven然后next
-
然后选中项目那个文件夹,在项目文件夹之下再创建一个Module文件夹
-
选中module文件夹并修改GroupId
-
注意:第一次创建maven项目会加载一会,等右下角读条完成之后开始下一步!
-
完成之后是这样
-
然后选中刚才新建的module,右击选中Add Framework Support…
-
拖动到最下面,选择Scala,点击Create
-
选择自己所配置的那个版本,然后点击ok即可
-
此时已经是个Scala模块了,如果没有就重启IDEA
-
new 一个Scala Class,点击Scala Class之后选择object
-
写个main方法测试一下,出结果不报错就成功完成配置
-
-
完成一次查询
-
首先跑完sql文件,自己要新建一个数据库,然后打开新建的数据库,再输入sql跑数据,因为数据较多,可能跑得较久,需要耐心等待(此为MySQL内容,不详细介绍)
-
此时需要一些依赖包,我们需要在maven中添加(如果本地仓库没有会进行下载,下载可能有点慢需要等待一下)
-
注意:看我所放的位置,下面有代码可以复制,不要粘贴错了
-
<dependencies> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.12</artifactId> <version>3.0.0</version> </dependency> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-sql_2.12</artifactId> <version>3.0.0</version> </dependency> <!-- 根据自己MySQL版本确定此依赖 如果自己的MySQL是5.X的就把<version>标签一行改为<version>5.1.47</version> --> <dependency> <groupId>mysql</groupId> <artifactId>mysql-connector-java</artifactId> <version>8.0.29</version> </dependency> </dependencies>
-
-
然后就在前面那个项目处new 一个Scala Class按着前面说诉步骤来,名字随意,此处就不细讲了
-
然后在内写入对应代码
-
def main(args: Array[String]): Unit = { val sparkSession = SparkSession.builder() .config("spark.testing.memory","2147480000") .appName("ReadMysql") .master("local[*]") .getOrCreate(); val url = "jdbc:mysql://localhost:3306/你的数据库名"; val df = sparkSession.read.format("jdbc").option("user","root").option("password","你的MySQL用户密码") .option("url",url).option("dbtable","(select * from orders where orderstatus = 'O') as mytable").load(); df.printSchema(); df.show(50); sparkSession.stop(); }
-
-
最后效果
df.show(50); sparkSession.stop(); }
-
最后效果
-
-