头歌-企业Spark案例--酒店数据分析实战

本文介绍了四个步骤,包括数据清洗(过滤和格式化字段)、数据分析(计算入住时间、离开时间、酒店入住次数和用户年度行为),展示了如何使用SparkSession和DataFrame在ApacheSpark中处理和分析CSV数据以提取有价值的信息。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

第1关 数据清洗–过滤字段长度不足的且将出生日期转换成指定格式

package com.yy


import org.apache.spark.rdd.RDD
import org.apache.spark.sql.{
   DataFrame, Dataset, SparkSession}

object edu{
   
    /**********Begin**********/
    // 此处可填写相关代码
    case class Person(id:String,Name:String,CtfTp:String,CtfId:String,Gender:String,Birthday:String,Address:String,Zip:String,Duty:String,Mobile:String,Tel:String,Fax:String,EMail:String,Nation:String,Taste:String,Education:String,Company:String,Family:String,Version:String,Hotel:String,Grade:String,Duration:String,City:String)
    /**********End**********/
    def main(args: Array[String]): Unit = {
   
        val spark = SparkSession
        .builder()
        .appName("Spark SQL")
        .master("local")
        .config("spark.some.config.option", "some-value")
        .getOrCreate()
        val rdd = spark.sparkContext.textFile("file:///root/files/part-00000-4ead9570-10e5-44dc-80ad-860cb072a9ff-c000.csv"
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值