Spark获取并分析Mysql数据

最新推荐文章于 2023-11-26 21:10:11 发布

小龙在山东

最新推荐文章于 2023-11-26 21:10:11 发布

阅读量1.9k

点赞数

分类专栏：数据库 mysql spark 文章标签： spark mysql

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lilongsy/article/details/77750731

版权

mysql 同时被 3 个专栏收录

38 篇文章 3 订阅

订阅专栏

30 篇文章 1 订阅

订阅专栏

9 篇文章 0 订阅

订阅专栏

安装环境

安装并启动Spark

下载并解压Spark

wget https://d3kbcqa49mib13.cloudfront.net/spark-2.2.0-bin-hadoop2.7.tgz
tar xzvf spark-2.2.0-bin-hadoop2.7.tgz /usr/local
cd /usr/local
ln -s spark spark-2.2.0-bin-hadoop2.7
cd spark

运行master和slave

./sbin/start-master.sh -h 192.168.0.166
./sbin/start-slave.sh spark://192.168.0.166:7077

其中192.168.0.166是本地ip

下载Mysql JDBC

下载JDBC，然后解压到spark目录，然后配置conf/spark-defaults.conf

spark.driver.extraClassPath      /usr/local/spark/mysql-connector-java-5.1.39-bin.jar
spark.executor.extraClassPath    /usr/local/spark/mysql-connector-java-5.1.39-bin.jar

运行scala命令（spark-shell）

./bin/spark-shell --master spark://192.168.0.166:7077

var jdbcDF = spark.read.format("jdbc").options(
    Map("url"->"jdbc:mysql://localhost:3306/collection?user=root&password=pw",
    "dbtable"->"collection.iqilu_news",
    "fetchSize"->"100",
    "partitionColumn"->"catid",
    "lowerBound"->"1",
    "upperBound"->"300",
    "numPartitions"->"30"
    )).load()
// 其中Spark根据partitionColumn里的字段来决定并发，numPartitions是并发数


//  创建collection临时视图，以供下面查询使用
jdbcDF.createOrReplaceTempView("collection")

var sqlDF = sql("SELECT title FROM collection ORDER BY id DESC LIMIT 10")

// 查看数据
sqlDF.show()

// 统计
sqlDF.count()

参考：

小龙在山东

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

小龙在山东

CSDN认证博客专家 CSDN认证企业博客

码龄16年

880: 原创

1391: 周排名

855: 总排名

357万+: 访问

: 等级

2万+: 积分

3万+: 粉丝

1232: 获赞

379: 评论

4261: 收藏

私信

关注

热门文章

分类专栏

最新评论

Python 日志模块Logging打印日志、输出到文件、配置格式
北风之神c: 总结的很全面，写得赞，博主用心了。此国产日志 https://nb-log-doc.readthedocs.io/zh-cn/latest/articles/c1.html 使用原生 loggng封装，兼容性和替换性100%,只需要一行代码大幅简化logging的使用。 1、日志能根据级别能够自动变彩色。 1 2、print自动变彩色。 3、日志和print在pycahrm控制台的输出都自动可以点击跳转到文件和行号。 4、多进程日志切割安全，文件日志写入性能高。 5、入参简单，能一键自动记录到多种地方。 6、 nb_log 兼容包含loguru色彩模式,loguru只是nb_log的子集之一. 相比 loguru 有10胜。 pip install nb_log 。
基于NNG的六种通信模式
CSDN-Ada助手: Java 技能树或许可以帮到你：https://edu.csdn.net/skill/java?utm_source=AI_act_java
Python requests乱码的五种解决办法
快乐的肉肉: 解决问题了，而且学会了其中原理，感谢
Chrome浏览器取消置顶
提笔惊蚂蚁: 关闭浏览器(快捷键: alt+F4), 重新打开也行, 如果想要恢复之前的标签页, 可以ctrl+shift+T
adb命令详解
CSDN-Ada助手: 大数据处理对于业务为什么重要？

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

小龙在山东 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。