这篇文章发表于Nature review Gastroenterology and Hepatology(18 August 2014),引用了GFT原始论文(Ginsberg, J. et al. Detecting influenza epidemics using search engine query data. Nature 457, 1012–1014 (2009).),是一篇综述文章,由从大数据中挖掘事件趋势的文章思路出发,总结了医疗方面应用大数据预测/展现公共卫生情况、医疗(特别是消化系统疾病方面的医疗问题)现实状况的案例和算法。
摘要内容:
在流行病学研究中,大数据集对于可靠地捕捉比较组之间的微小差异或检测新的未知关联至关重要。虽然网络搜索信息、社交媒体、航空交通和电话记录的大型数据库已经被广泛用于捕捉社会趋势,但医学研究中的大型数据库刚刚出现。随着电子病历的普遍使用,大量与健康相关的信息将可用于生物医学研究。接受这种新的研究工具——基于对大量现有数据集的分析,而不是基于假设驱动的深入前瞻性研究——将需要临床研究的新思维,因为数据可能“混乱”,只能检测到关联,而不能检测到因果关系。尽管有这些限制,这些新资源在医学研究中的应用为增进消化系统疾病的知识提供了巨大的潜力。
文章结构:
Introduction
Need for large amounts of data
Constraints in data analysis
Small–accurate or large–messy?
If n = all, where is the bias?(就是不抽样)
The ‘R’ word(就是retrospective,回顾性)
Big data will become universal
Conclusions