基于r语言的疾病制图中自适应核密度估计的阈值选择方法案例

最近我们被要求撰写关于核密度估计的研究报告,包括一些图形和统计输出。

背景

诸如核密度估计(KDE)的平滑方法被用于控制用于计算每种疾病率的空间支持的群体基础。平滑程度由用户定义的参数(带宽或阈值)控制,该参数影响疾病图的分辨率和计算的速率的可靠性。

方法

内核,带宽的大小,是影响在KDE [在地图上的平滑的程度的关键参数 ]。带宽可以是固定的也可以是可变的(自适应的)。对于固定带宽方法,内核具有固定大小的半径,并且所有内核(圆圈)具有相同的半径。在健康研究中,固定带宽方法可能不合适,因为人口不是均匀分布在地理空间中。此外,如果圆圈落入低人口密度区域,可能会导致不稳定的比率。类似地,在自适应带宽方法中,内核半径增大或缩小以适应不同的种群大小。用于定义内核带宽的最小种群大小,以及因此地图上的平滑程度,是用户定义的参数。我们将其称为阈值(h)。

图 显示了使用疾病控制和预防中心(CDC),国家卫生统计中心(NCHS)  获得的65岁及以上男性心脏病死亡率的空间分布。我们使用具有不同阈值的自适应核密度估计方法产生该映射。

 
#自适应平滑
  bivariate. ( ,h0=1.5,hp=1,adapt=TRUE,davies.baddeley=0.025)
 
## 带宽选择##
 
 
###全局(用于自适应)带宽选择##
# ~200 secs next line; 使用“并行化”来加速
system.time(  <- BOOT. (pbc,type=" ")) # 自适应引导的最小用法
# ~80 secs   设置自定义h限制; 增加参考带宽
  plot(hada);abline(v=hada[which.min(hada[,2]),1],col=2)

模拟基线速率和真实值(RMSE)之间的差异幅度随着L的增加而稳定。在本研究中,当L  > 50时,所有年龄组均达到稳定状态。在这项研究中,我们使用了100次重复。由于估计过高和过低的百分比或多或少相等,我们可以得出结论,模拟是无偏的。

 
 
## RMSE 误差  

plot(x, y,
      , col = "lightgrey",
     xaxt = "n", yaxt = "n", xaxs = "i", yaxs = "i",
 axis(1, at = axp, labels = axp)
axis(2, at = axp, labels = axp)

模拟基线速率分布特征总结

年龄阶层

均值

SD

覆盖率(%)

估计过高(%)

低估(%)

35-44

33.92

1.40

17

50.6

49.4

45-54

115.17

2.52

11

49.4

50.6

55-64

297.60

4.49

20

56.2

43.8

65岁以上

1245.93

10.21

16

47.6

52.4

35+

351.12

2.27

14

52.3

47.7

门槛选择对人口密度估计的影响

这些结果表明,对于相同的数据,不同的带宽选择器提供不同的阈值。对于这些数据,piscv推荐产生的图可以提供更大的地理细节(更低的平滑水平),但估计的速率也会产生更大的波动。相反,另外两个带宽选择器产生更高水平的平滑,但速率波动更少。 

 

描述性结果和计算的阈值按年龄组分层

年龄组

总人口

范围

ZCTA数量

计算的阈值

具有指定最小人口的%ZCTA

pi

scv

ns

中位数

≤100(%)

≤300(%)

35-44

1722904

[1,7925]

1911 

53

56

280

327

32

48

45-54

1702639

[1,7407]

1910

57

55

255

399

28

45

55-64

1256976

[1,4948]

1906 

44

41

177

342

30

48

65岁以上

1135517

[1,4792]

1902

41

40

156

330

28

48

总计(35 +)

5818036

[1,25,555]

1920

200

189

837

1411

14

25

在图 ,将应用每个阈值(piscvns中位数和六个任意选择-50,100,500,1000,5000,10,000)后获得的种群密度曲线与实际种群进行比较分配。对于每个图表,X轴表示大小为200的群体,Y轴是ZCTA的密度。 

门槛选择对费率估计分布的影响

图说明了100次重复的每个阈值的估计状态速率的分布。由于piscv为所有年龄组提供了几乎相同的值,因此在该研究中仅使用pi。 Y轴显示从模拟数据集获得的心脏病死亡率(每100,000人口),每个点代表每次模拟的估计状态率。模拟基线率(i)也包括在每个图表中以供参考。粗略比率计算为每个单独ZCTA的模拟病例与人口比率的平均值。

表  使用ns中值h  > 500 获得的阈值为本研究中使用的年龄分层提供了最理想的密度曲线特征。此外,h  > 500,nsh  > 1000提供了35岁及以上年龄段的最理想的密度曲线特征。对于这些情况,虽然RMSE值没有明显不同 。这对于在图的35+岁年龄组,尤其如此 即 在制作疾病地图时,需要平衡地图上描绘的地理细节数量和估计费率的准确性。虽然RMSE建议使用三个期望阈值产生的地图之间具有相似的准确度,但是在选择适当阈值时要考虑的剩余关键因素是地理变化程度。 而且,与任意选择相比, ns提供了一种估计适当阈值的一致方法。

结果

使用德克萨斯州35岁及以上男性心脏病死亡率的模拟数据集,我们评估了自动选择平滑参数的方法。我们的结果表明,虽然所有参数选择都准确地估计了整体状态速率,但它们在空间分辨率方面有所不同。 

结论

我们表明适当的阈值取决于数据的特征,并且带宽选择器算法可用于指导关于映射参数的此类决策。

非常感谢您阅读本文,有任何问题请在下面留言!


最受欢迎的见解

1.Python中的Apriori关联算法-市场购物篮分析

2.R语言绘制生存曲线估计|生存分析|如何R作生存曲线图

3.用关联规则数据挖掘探索药物配伍中的规律

4.通过Python中的Apriori算法进行关联规则挖掘

5.用关联规则数据挖掘探索药物配伍中的规律

6.采用SPSS Modeler的Web复杂网络对所有腧穴进行分析

7.R语言如何在生存分析与COX回归中计算IDI,NRI指标

8.R语言如何找到患者数据中具有差异的指标?(PLS—DA分析)

9.R语言中的生存分析Survival analysis晚期肺癌患者4例

  • 2
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值