Spark SQL数据处理（一）

鲲到底有多大

已于 2023-02-23 14:18:44 修改

阅读量812

点赞数

分类专栏： Spark数据层分析处理文章标签： spark 大数据数据分析 java scala

于 2023-02-18 12:46:32 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_44743835/article/details/129098740

版权

Spark SQL数据处理（一）

数据介绍

通过Spark Dataframe API和Sql两种语句处理豆瓣电影数据集，该数据包含五个表格：movies.csv、person.csv、users.csv、comments.csv、ratings.csv。对每个表格进行单独简单的清理，最后写入mysql数据库中
总的数据处理步骤有：删除多余的列，更改列的数据类型，存入mysql数据库

API语法

前期设置

    val sparkConf = new SparkConf().set("spark.testing.memory", "2147480000").set("spark.sql.shuffle.partitions","200")
    val spark: SparkSession = SparkSession.builder()
      .config(sparkConf)
      .appName("Spark ETL1.0")
      .master("local").getOrCreate()

    // 数据库参数
    val url = "jdbc:mysql://localhost:3306/douban"
    val prop = new java.util.Properties
    prop.setProperty("user", "root")
    prop.setProperty("password", "123456")

写一个读取csv文件的函数

  // 读取csv文件
  def readcsv(file_path:String,file_name:String,encoding:String="utf-8"): DataFrame = {
   
    val dataFrame: DataFrame = spark.read
      .format("csv")
      .option("header", "true")
      .option("encoding", encoding)
      .load(file_path)
    dataFrame
  }

处理movies元数据
movies有两个特殊的列：ACRTOR _IDS 和 DIRECTOR_IDS。元数据内容形式是这种： |王博：123456|张杰：452759|周杰伦：|

最低0.47元/天解锁文章

鲲到底有多大

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

鲲到底有多大 CSDN认证博客专家 CSDN认证企业博客

码龄6年

11: 原创

106万+: 周排名

38万+: 总排名

1万+: 访问

: 等级

125: 积分

7: 粉丝

5: 获赞

4: 评论

100: 收藏

私信

关注

热门文章

分类专栏

Spark数据层分析处理 3篇

最新评论

天池-零基础入门推荐系统新闻推荐之数据分析01
一个学数学的程序媛: 现在好像缺少了几个数据集方便分享一下吗~
Yolov5-6.0官方源代码骨干解析，并使用TensorRT加速推理，最后封装成API
NCX110824101: 你好博主，请问你封装的API每次调用的时候都需要重新加载weights文件吧，这样没法用吧，太慢了
python爬虫爬取猫眼电影排行Top100
Dylan_zlh: 楼主，text返回变成了这个，是编码的问题吗
python爬虫爬取猫眼电影排行Top100
Dylan_zlh: <div class="container" id="app" class="page-404/main" > <div class="not-found-body">  <p class="not-found-message">403 å¾æ±æï¼æ¨çè®¿é®è¯·æ±ç±äºè¿äºé¢ç¹èè¢«ç¦æ¢ã</p> <p class="error-message">sorryï¼your request was rejected.</p> <p class="error-message">å¦æçé®ï¼è¯·å°æ¤é¡µæªå¾å¹¶åéé®ä»¶è³ <a href="mailto:mywt@maoyan.com">mywt@maoyan.com</a></p> <p class="error-message">--------------------------------------------- Request Info ---------------------------------------------</p> <span class="error-msg line">è®¿é®æ¶é´ï¼<p id="servertime"></p></span> <span class="error-msg line">IPï¼<p id="ip"></p></span> <span class="error-msg line">Refererï¼<p id="referer"></p></span> <span class="error-msg line">User-Agentï¼<p id="ua"></p></span> <div class="hom

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。