通过样例类创建DataFrame，并用spark sql 操作

最新推荐文章于 2021-12-26 16:01:40 发布

白修修

最新推荐文章于 2021-12-26 16:01:40 发布

阅读量720

点赞数

分类专栏： spark sql 文章标签： spark 大数据 scala

本文链接：https://blog.csdn.net/weixin_41639302/article/details/107971624

版权

现有这样两份数据：
1、该数据每日进行采集汇总。数据范围涵盖全国主要省份（港澳台、西藏、海南暂无数
据）的 180+的大型农产品批发市场，380+的农产品品类（由于季节性和地域性
等特点，每日的数据中不一定会涵盖全部的农产品品类）
在这里插入图片描述

2、全国所有省级行政区和简称
在这里插入图片描述

对上述的两份数据进行一些处理

需求写在代码注释，话不多说，直接上代码：

import org.apache.spark.rdd.RDD
import org.apache.spark.sql.{
   DataFrame, SparkSession}

object DSPractice1 extends App{
   
  //todo 根据数据的结构创建两个样例类
  case class Products(name:String,price:Float,craw_time:String,market:String,province:String,city:String)
  case class Provinces(pname:String,peng:String)

  //todo 创建一个SparkSession
  val spark = SparkSession.builder().master("local[5]").appName("createDataset5").getOrCreate()
  val sc = spark.sparkContext
  //todo 导包
  import spark.implicits._

  //todo 通过调用样例类创建DataFrame
  //todo 因为在后续操作中发现第一张表中有脏数据，所以这里用“filter(x=>x.length==6)”过滤
  private val proDF: DataFrame <

最低0.47元/天解锁文章

白修修

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
通过样例类创建DataFrame，并用spark sql 操作

现有这样两份数据：1、该数据每日进行采集汇总。数据范围涵盖全国主要省份（港澳台、西藏、海南暂无数据）的 180+的大型农产品批发市场，380+的农产品品类（由于季节性和地域性等特点，每日的数据中不一定会涵盖全部的农产品品类）2、全国所有省级行政区和简称对上述的两份数据进行一些处理需求写在代码注释，话不多说，直接上代码：import org.apache.spark.rdd.RDDimport org.apache.spark.sql.{DataFrame, SparkSession}
复制链接

扫一扫