spark学习笔记4

一、

spark2.0+ 版本只用spark.sql的SparkSession就可以代替之前的SparkContext、SQLContext等。

SparkSession的建立:

spark = SparkSession.builder \
    .master("local") \
    .appName("Word Count") \
    .config("mysqlusername", "alarm") \
    .getOrCreate()

用SparkSession的read.jdbc读取mysql数据

df = spark.read.jdbc(url='jdbc:mysql://192.168.88.60:3306/alarm',table='test',
                     properties={'user':'alarm','password':'123456'})
注意:在这里本来开始遇到了报错,“java.sql.SQLException: No suitable driver”
原因是java没有连接mysql的驱动
解决办法是:到mysql的官网,下载驱动mysql-connector-java-****-bin.jar,放到JAVA_HOME目录下的jre\lib\ext文件下
下载地址https://dev.mysql.com/downloads/connector/j/,点download会提示登录或注册,不用管点下面的No thanks下载即可。
另外SparkSession的read里面包含读取各种dataset的方法,如json、csv等等

二、

今天也学习了python的图论库NetWorkx

顺便就想看看spark的Graphx,但发现Graphx根本没有python接口,后来查看spark项目开发记录,原来Graphx的python接口项目中途关闭了,因为在不太好做。但好在有GraphFrames,有java,scala,python接口,而且接口统一。GraphFrames一个基于spark同样做图论的,只不过是基于dataframe。

看来dataframe这种结构真是很有优势啊,spark ml就是基于dataframe。


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值