快速计算点密度的度量并将其显示在地图上通常很有用。在本教程中,我们将使用 ggmap R 包中包含的德克萨斯州休斯顿的犯罪数据来演示这一点。
目标
- 计算点的二维空间密度
- 用 ggplot2 绘制密度表面
我们将从加载库开始。请注意,由于 Google 提供地图的方式发生了变化,本课程中不再使用 ggmap 包来生成底图,但本教程中使用的数据包含在 ggmap 包中。
library(ggplot2)
library(ggmap)
然后,我们可以加载德克萨斯州休斯顿的内置犯罪数据集。
data(crime)
# 删除任何有缺失数据的行
crime <- crime[complete.cases(crime), ]
# 看一下犯罪数据的结构
str(crime)
## 'data.frame': 81803 obs. of 17 variables:
## $ time : POSIXct, format: "2010-01-01 06:00:00" "2010-01-01 06:00:00" ...
## $ date : chr "1/1/2010" "1/1/2010" "1/1/2010" "1/1/2010" ...
## $ hour : int 0 0 0 0 0 0 0 0 0 0 ...
## $ premise : chr "18A" "13R" "20R" "20R" ...
## $ offense : Factor w/ 7 levels "aggravated assault",..: 4 6 1 1 1 3 3 3 3 3 ...
## $ beat : chr "15E30" "13D10" "16E20" "2A30" ...
## $ block : chr "9600-9699" "4700-4799" "5000-5099" "1000-1099" ...
## $ street : chr "marlive" "telephone" "wickview" "ashland" ...
## $ type : chr "ln" "rd" "ln" "st" ...
## $ suffix : chr "-" "-" "-" "-" ...
## $ number : int 1 1 1 1 1 1 1 1 1 1 ...
## $ month : Ord.factor w/ 8 levels "january"<"february"<..: 1 1 1 1 1 1 1 1 1 1 ...
## $ day : Ord.factor w/ 7 levels "monday"<"tuesday"<..: 5 5 5 5 5 5 5 5 5 5 ...
## $ location: chr "apartment parking lot" "road / street / sidewalk" "residence / house" "residence / house" ...
## $ address : chr "9650 marlive ln" "4750 telephone rd" "5050 wickview ln" "1050 ashland st" ...
## $ lon : num -95.4 -95.3 -95.5 -95.4 -95.4 ...
## $ lat : num 29.7 29.7 29.6 29.8 29.7 ...
让我们用 ggplot2 绘制犯罪地点。
ggplot(crime, aes(x = lon, y = lat)) +
geom_point() +
coord_equal() +
xlab('Longitude') +
ylab('Latitude')
似乎有相当多的过度绘图。
让我们来绘制一个密度估计。计算密度的方法有很多种,如果密度估计的机制对您的应用程序很重要,那么研究专门用于点模式分析的软件包(例如spatstat)是值得的。另一方面,如果为了探索性数据分析的目的,您正在寻找快速而肮脏的实现,您还可以使用 ggplot's stat_density2d,它MASS::kde2d在后端使用二元正态核来估计密度。
ggplot(crime, aes(x = lon, y = lat)) +
coord_equal() +
xlab('Longitude') +
ylab('Latitude') +
stat_density2d(aes(fill = ..level..), alpha = .5,
geom = "polygon", data = crime) +
scale_fill_viridis_c() +
theme(legend.position = 'none')
您可以通过对kde2d
的调用传递参数stat_density2d
。在这种情况下,我们改变参数h
,它是与密度估计的空间范围或平滑度相关的带宽参数。
ggplot(crime, aes(x = lon, y = lat)) +
coord_equal() +
xlab('Longitude') +
ylab('Latitude') +
stat_density2d(aes(fill = ..level..), alpha = .5,
h = .02, n = 300,
geom = "polygon", data = crime) +
scale_fill_viridis_c() +
theme(legend.position = 'none')
作为替代方案,我们可能会考虑使用 alpha 透明度绘制原始数据点,以便我们可以看到实际数据,而不仅仅是数据模型。我们还将设置坐标以用作限制以专注于休斯顿市中心。
ggplot(crime, aes(x = lon, y = lat)) +
geom_point(size = 0.1, alpha = 0.05) +
coord_equal() +
xlab('Longitude') +
ylab('Latitude') +
coord_cartesian(xlim = c(-95.1, -95.7),
ylim = c(29.5, 30.1))