本文简单介绍DataFrame从MySQL中组织数据。所用语言为spark自身支持的scala
一、环境准备
首先确保你正确安装了spark,包括配置好环境;
建立一个数据库名为testDF,创建表user,包含如下数据
id name age
1 chen 21
2 liang 22
二、从MySQL表中创建DataFrame
1.运行spark本地单进程模式:
spark-shell --master local
从shell的信息中可以看到,SparkContext与SqlContext已经为我们准备好了。
这时已经进入了scala的运行环境,可以直接输入scala语句并运行。
2.创建一个DataFrame,这个DataFrame将会包含一个MySQL表的数据
val tableDF = sqlContext.jdbc("jdbc:mysql://mysql_hostname:mysql_port/testDF?user=your_username&password=your_password", "user")
可以看见shell中显示创建org.apache.spark.sql.DataFrame成功,并输出了DataFrame的数据结构。
jdbcDF: org.apache.spark.sql.DataFrame = [id: int, name: string, age: int]
(如果创建失败有异常那么请查看发生异常的原因,可能是由于没有找到mysql-connector.jar)
3.运行
tableDF.show()
可