- 数据观察和预处理。读取数据可使用 read.csv()函数或 readr 包中的
read_csv()函数;数据预处理操作包括时间类型的转换,可使用 as.Date()函数;长
宽数据的转换,将数据集 2 转换为长数据;日期中年月日的提取等。还可进行分
组汇总计算,例如根据累计确诊人数计算 2020 年 1 月 3 日至 2022 年 12 月 7 日
的国内各省每日新增确诊人数,按年月分组汇总确诊人数等。
library(tidyverse)
### 读取数据
# 全球新冠肺炎疫情数据
a <- read_csv("WHO-COVID-19-global-data.csv")
# 全国新冠肺炎累计确诊数据(带地理坐标)
b <- read.csv("con_20221207_v3.csv")
# 全球新冠肺炎累计确诊数据(带地理坐标)
c <- read.csv("con_20221207_v0.csv",)
### 筛选数据
# 筛选11月30日全球新冠肺炎数据
a %>%
filter(Date_reported == '2022-11-30') -> data1
# 删除累计确诊和累计死亡人数为0的国家
# 否则对数值无法计算(log(0))
data1 %>%
filter(Cumulative_cases!=0 & Cumulative_deaths !=0) -> data1_new
# 对数处理
data1_new$log_cumcases <- log10(data1_new$Cumulative_cases+0.9)
data1_new