【论文解读 WWW2019】|基于开放数据的因果推断:社区环境特征如何影响居民健康?

该论文通过开放数据探索社区环境特征,如体育设施,如何影响居民健康,特别是抗抑郁药处方率。采用因果推断方法,匹配算法和倾向评分来处理潜在的混杂变量,发现体育设施与抗抑郁药处方呈负相关。研究强调了使用开放数据进行精细时空分析在公共政策研究中的价值。
摘要由CSDN通过智能技术生成

        本篇文章是解读顶会论文的第一篇,为了追求阅读效率,省略了本人认为不影响理解的内容,并非论文的全部中文翻译,主要包括文章的核心内容和方法,想要看包含文献综述等完整论文内容的小伙伴可以自己阅读英文原文哦~

文章标题《Understanding the Effects of the Neighbourhood Built Environment on Public Health with Open Data》

       本文发表于2019年CCF-A类顶会WWW,由剑桥大学的学者提出,是关于因果推断社会科学计量经济学的论文,属于交叉学科研究方向。关于CV,NLP,RecSys等方向的顶会论文解读已有不少大佬总结,关注计量经济学和社会科学方面的顶会论文相对较少。这篇论文比较有意思,因此简要介绍帮助大家快速了解文章核心。

废话不多说,我们开始吧≡ω≡

1. 文章背景

        在公共政策以及社会科学的领域中,研究社区环境对居民健康的影响是一个较为典型的、有价值的方向。传统的研究方法以社会调研为主,其时间和空间跨度是有限的,这会导致时间和空间上的粗粒度数据(如面板数据),且大规模的社会调研会导致较高的人力物力成本,通常来说是效率很低的做法。基于此,本文利用开放数据(如OSM等项目提供的数据),在较细的时空粒度以及因果关系框架的基础上,提出了一种将邻里社区特征对居民健康的影响联系起来的方法。具体而言,作者使用因果推断等方法,研究了三年内伦敦600多个区域的运动场所对抗抑郁药处方流行率的影响,将其作为一个典型案例来证明社区环境对居民健康的影响。这种方法有很多好处,看到后面你就知道了╰( ̄▽ ̄)╭。

2. 研究方法 

        先介绍总体方法:文章关注的是社区环境的具体特征,如某些特定服务的存在(体育设施)对人口健康的outcome(如抗抑郁药处方)的影响。这里的社区环境特征被称为treatment。这里采取了因果推理的观点(假设你已经了解因果推理相关概念),文章想找到对于社区环境施加体育设施这种treatment会给人口健康结果带来的因果效应,简单来说就是,我们需要评估,当体育设施这个具体特征改变的时候,它对于人口健康结果(如抗抑郁药处方)有什么样的影响。

2.1 研究单位

       在因果推理中,实验对象叫做unit,可以是一个或者多个,在本文中可以看作是施加了treatment的研究单位,即不同的neighbourhoods,具体就是伦敦的625个行政选区(ward)。在一年开始时,每个区域都被视为施加了特定单位量的treatment。

2.2 Matching

      在介绍matching方法之前,我们要了解一个基础的因果推理方法叫做随机对照实验(RCT,randomized controlled trials),如果应用这种方法,本文的做法理论上应该是随机选择一半的区域(ward),将没有施加treatment的区域集合作为对照组(control group),剩下的作为实验组(treatment group)。但是显而易见这种方法是非常拉垮的,毕竟我们不能随心所欲地控制在哪个区域去施加treatment。

        虽然RCT的方法是不可取的,但它背后的思想非常有价值。它确保了除treatment变量的所有影响outcome的变量都是平衡的,这意味着两组对象的实验结果在treatment status上是可比的,因为treatment是唯一的区别所在。

        那么问题来了——怎样找到一个alternative method来实现RCT的思想呢?

       本文采用的是因果推理中的匹配算法(Matching Procedure)。这里要介绍一个概念叫混杂变量࿰

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值