本项目给出三个数据集,具体数据集介绍如下:
全球新冠疫情数据集
来自世界卫生组织官网,时间范围为 2020 年 1 月 3 日至 2022 年 12 月 7 日。
具体数据字段如下:
变量名称 数据类型 变量描述
国内分省新冠累计确诊数据集
从 the Center for Systems Science and Engineering (CSSE) at Johns Hopkins
University (JHU)数据中整理得到,时间范围为 2020 年 1 月 22 日至 2022 年 12 月
全球新冠累计确诊数据集(带地理坐标)
从 the Center for Systems Science and Engineering (CSSE) at Johns Hopkins
- 数据观察和预处理。读取数据可使用 read.csv()函数或 readr 包中的
read_csv()函数;数据预处理操作包括时间类型的转换,可使用 as.Date()函数;长
宽数据的转换,将数据集 2 转换为长数据;日期中年月日的提取等。还可进行分
组汇总计算,例如根据累计确诊人数计算 2020 年 1 月 3 日至 2022 年 12 月 7 日
的国内各省每日新增确诊人数,按年月分组汇总确诊人数等。
library(tidyverse)
### 读取数据
# 全球新冠肺炎疫情数据
a <- read_csv("WHO-COVID-19-global-data.csv")
# 全国新冠肺炎累计确诊数据(带地理坐标)
b <- read.csv("con_20221207_v3.csv")
# 全球新冠肺炎累计确诊数据