SparkSql读取HDFS文件写出到MySQL的问题

本文介绍了如何使用SparkSQL读取HDFS上的BSON/JSON格式文件,并将其写出到MySQL数据库。在操作过程中,需要注意HDFS端口、Spark与Hadoop版本兼容性、字段映射及类型匹配、批处理大小优化以及SaveMode的选择。在服务器上运行时,可能遇到版本不兼容问题,解决办法是删除Spark自带的Hadoop 2.6版本jar,替换为3.x版本。
摘要由CSDN通过智能技术生成

SparkSql读取HDFS文件写出到MySQL

用SparkSQL来处理存放在HDFS文件,操作起来优雅简洁,同时写出到数据库中,比SparkRDD操作跟简单,在此之前确保HDFS所在服务器的访问端口是否开通一般为9000端口,文章里是8020端口。文章中使用的数据为MongoDB的数据到HDFS上的,数据格式(BSON)和JSON是大同小异的。

数据格式

{
   "oil":0,"simNo":"010000000002","carId":304648943587868672,"address":null,"satelliteNumber":0,"reportTime":1592443939000,"status":0,"terminalId":"3212025","longitude":119358299,"plateNo":"苏A00002","statusComments":"ACC开 定位 南纬 西经 停运状态 经纬度已经保密插件加密 车辆油路断开 车辆电路断开 车门加锁 前门开 中门开 后门开 驾驶席门开 使用GPS卫星进行定位 使用北斗卫星进行定位 ","timeIntervalStatus":null,"@version":"1","course":0,"alarmComments":null,"speed":800,"altitude":25,"latitude":32188034,"parkTime":0,"@timestamp":"2020-06-29T17:31:44.861Z","alarmFlag":0,"terminalDriver":null,"mileage":552954}
{
   "oil":0,"simNo":"064606108552","carId":299525840931176448,"address":null,"satelliteNumber":0,"reportTime":1592443998000,"status":0,"terminalId":"2359641","longitude":119358135,"plateNo":"苏L75735","statusComments":"ACC开 定位 南纬 西经 停运状态 经纬度已经保密插件加密 车辆油路断开 车辆电路断开 车门加锁 前门开 中门开 后门开 驾驶席门开 使用GPS卫星进行定位 使用北斗卫星进行定位 ","timeIntervalStatus":null,"@version":"1","course":0,"alarmComments"
  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值