现有这样两份数据:
1、该数据每日进行采集汇总。数据范围涵盖全国主要省份(港澳台、西藏、海南暂无数
据)的 180+的大型农产品批发市场,380+的农产品品类(由于季节性和地域性
等特点,每日的数据中不一定会涵盖全部的农产品品类)
2、全国所有省级行政区和简称
对上述的两份数据进行一些处理
需求写在代码注释,话不多说,直接上代码:
import org.apache.spark.rdd.RDD
import org.apache.spark.sql.{
DataFrame, SparkSession}
object DSPractice1 extends App{
//todo 根据数据的结构创建两个样例类
case class Products(name:String,price:Float,craw_time:String,market:String,province:String,city:String)
case class Provinces(pname:String,peng:String)
//todo 创建一个SparkSession
val spark = SparkSession.builder().master("local[5]").appName("createDataset5").getOrCreate()
val sc = spark.sparkContext
//todo 导包
import spark.implicits._
//todo 通过调用样例类创建DataFrame
//todo 因为在后续操作中发现第一张表中有脏数据,所以这里用“filter(x=>x.length==6)”过滤
private val proDF: DataFrame <