Apache Spark 练习二：使用Dataframe分析新冠肺炎疫情数据

liulizhi1996

已于 2022-12-20 17:11:56 修改

阅读量362

点赞数

分类专栏： Spark 文章标签： spark 大数据分布式

于 2022-12-20 17:10:51 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/liulizhi1996/article/details/128387244

版权

Spark 专栏收录该内容

7 篇文章 4 订阅

订阅专栏

本文依然延续使用《Apache Spark 练习一：使用RDD分析新冠肺炎疫情数据》中的数据进行分析。

0. 数据预处理

import org.apache.spark.sql.SparkSession

// 创建SparkSession
val spark = SparkSession
  .builder()
  .appName("Coronavirus")
  .getOrCreate()
// 导入$-记号
import spark.implicits._

// 读取源数据
val df = spark.read
  .option("header", value = true)
  .csv("hdfs:///SparkLearning/us-counties.csv")
  .withColumns(
    Map(
      "cases" -> $"cases".cast("int"),
      "deaths" -> $"deaths".cast("int")
    )
  )

1. 统计美国截止每日的累计确诊人数和累计死亡人数

val res = df
  .groupBy($"date")
  .agg(
    Map(
      "cases" -> "sum",
      "deaths" -> "sum"
    )
  )
  .withColumnRenamed("sum(cases)", "total_cases")
  .withColumnRenamed("sum(deaths)", "total_deaths")
  .sort($"date")

2. 统计截至2020.5.19，美国累计确诊人数最多的十个州

val res = df
  .filter($"date" === "2020-05-19")
  .groupBy($"state")
  .sum("cases")
  .sort($"cases")
  .tail(10)

3. 统计截止2020.5.19，全美各州的病死率

import org.apache.spark.sql.functions.round

val res = df
  .filter($"date" === "2020-05-19")
  .groupBy($"state")
  .sum("cases", "deaths")
  .withColumn("death_rate", round($"sum(deaths)" / $"sum(cases)", 4))
  .select("state", "death_rate")
  .sort($"state")

4. 统计美国每日的新增确诊人数

import org.apache.spark.sql.functions.datediff

val totalCases = df
  .groupBy($"date")
  .sum("cases")
  .withColumnRenamed("sum(cases)", "total_cases")
val newCases = totalCases
  .as("t1")
  .join(totalCases.as("t2"), datediff($"t1.date", $"t2.date") === 1)
  .withColumn("new_cases", $"t1.total_cases" - $"t2.total_cases")
  .select($"t1.date".as("date"), $"new_cases")
  .sort($"date")

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

liulizhi1996 CSDN认证博客专家 CSDN认证企业博客

码龄10年

728: 原创

3万+: 周排名

51万+: 总排名

39万+: 访问

: 等级

9336: 积分

361: 粉丝

228: 获赞

94: 评论

674: 收藏

私信

关注

热门文章

分类专栏

数据库 13篇
Spark 7篇
前端 3篇
Hadoop 1篇
Shell 1篇
C语言 81篇
LeetCode 344篇
蓝桥杯 232篇
Java 25篇
NYOJ 9篇
基础水题 1篇
数论 8篇
算法 5篇
图论 1篇
C语言实践 5篇
Cpp 4篇

最新评论

厦大C语言上机 2020年期末上机考试移车问题
m0_72278801: #include <stdio.h> #include <stdlib.h> int max(int a,int b) { return a>b?a:b; } void swap(int**num,int i,int j) { for(int k=0;k<2;k++) { int temp=num[i][k]; num[i][k]=num[j][k]; num[j][k]=temp; } } void sort(int**num,int row) { for(int i=0;i<row-1;i++) for(int j=0;j<row-1-i;j++) { if(num[j][0]>num[j+1][0]) swap(num,j,j+1); } } int Ans(int**num,int row) { int res[row][2];int len=0; for(int i=0;i<row;i++) { res[i][0]=0;res[i][1]=0; } sort(num,row); int left=num[0][0],right=num[0][1]; for(int i=1;i<row;i++) { if(num[i][0]<=right) right=max(right,num[i][1]); else { res[len][0]=left; res[len++][1]=right; left=num[i][0]; right=num[i][1]; } }//忘记把最后一个人区间加进去了呀！！； res[len][0]=left; res[len++][1]=right; //不是文心一言的话我死也找不出这个错误 int sum=100; for(int i=0;i<len;i++)
Java多线程编程——生产者消费者问题
大狗先生的尚老师: 看明白了
牛客网SQL非技术快速入门
CSDN-Ada助手: 不知道 MySQL入门技能树是否可以帮到你：https://edu.csdn.net/skill/mysql?utm_source=AI_act_mysql
厦大C语言上机 1494 简单链表
xiaofanhua2: 大佬能解释一下吗
厦大C语言上机 1394 抛硬币
liulizhi1996: 代码使用的是动态规划算法。设a[i]表示抛i次硬币不连续出现正面的可能情况总数。对第i次抛硬币的结果进行分类讨论：（1）若第i次抛的结果是正面，那么为不连续出现正面，第i-1次抛的结果必须是反面，因此所有可能的不连续出现正面的情况总数为a[i-2]，即抛i-2次硬币不连续出现正面可能的情况种数；（2）若第i次抛的结果是反面，那么第i-1次抛的结果既可以是正面、也可以是反面，因此因此所有可能的不连续出现正面的情况总数为a[i-1]，即抛i-1次硬币不连续出现正面可能的情况种数。汇总上述两种情况，可知a[i] = a[i-1] + a[i-2]，并且递推首项a[1] = 2，a[2] = 3。

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。