ERT首席数据官Prakriteswar Santikary博士上个月在2018年数据架构峰会上做了演讲,在演讲中他谈到了他的团队在其临床研究组织开发的数据湖架构。他讨论了部署在云中的数据平台,使用无服务器计算和数据服务等概念来简化数据收集、聚合、临床报告和分析。
桑迪卡里谈到了临床试验行业的市场动态和挑战。临床研究的风险比以往任何时候都高,临床开发市场的竞争也变得更加激烈,监管标准更加严格,对试验监督和患者安全的重视程度也更高。
与此同时,一种新药商业化所需的成本和时间正在不断增加——超过8年,超过20亿美元。这些数字如此惊人的一个重要因素是临床试验越来越复杂了,因为很大程度上研究设计需要更多的端点来证明产品价值。
临床试验的赞助商也正在从多个不同来源整合数据,包括基因组测序、医学成像、实验室、衣物和其他移动健康(mHealth)设备,并整合运营、金融和真实世界带有端点数据的佐证数据,以最有地应用他们的研发投资,给市场带来拯救生命的药物和治疗方法。
目前影响临床研究的其他趋势包括:
- 精密医学
- 虚拟试验
- 患者中心性
InfoQ采访了Santikary,以了解更多关于主数据管理(MDM)、他们开发的数据湖解决方案,以及数据架构和技术在临床和医疗行业的新兴趋势。在早些时候,InfoQ曾经发表过一篇题为《数据湖只是个哗众取宠的伪概念吗?》的文章,想要知道答案,可以点开文章看一看。
InfoQ:您能谈谈临床试验行业的一些数据架构挑战吗?
Santikary:鉴于市场动态和数据集成的挑战,临床研究中的数据架构挑战是很重大的。在ERT,我们的现代数据平台的架构是为了迎接以下挑战:
数据安全、隐私和大规模保护、大规模数据集成、大规模实时报告和分析以及大规模数据治理和主数据管理。
InfoQ:在医疗系统中实现数据湖架构的挑战是什么?
Santikary:在医疗保健中实现数据湖架构的主要挑战是确保数据平台是从数据安全、隐私和防护方面考虑的整体架构,同时支持实时数据传输、收集、摄取和大规模集成。更不用说,不能低估在处理数据湖中的非结构化和二进制数据时所面临的挑战。从数据湖体系结构的角度来看,支持批处理和近时数据集成以及业务智能是一个真正的实际挑战。以自助服务的方式向所有委托人提供综合数据是另一个大挑战。
InfoQ:您的团队是如何在新的数据平台上构建主数据管理的?
Santikary:主数据管理(MDM)是我们整个现代数据架构基础的一个关键架构组件。我们的企业数据湖是MDM平台的使用者,MDM平台从所有操作系统和事务系统收集所有控制实体,并使用复杂的匹配和合并算法、元数据管理和语义匹配实时控制它们。我们也有数据管理员,他们监督手工合并和数据质量,并从企业所有权和责任的角度拥有数据。我们已经创建了一个本质上跨职能的数据治理委员会——这个委员会从整个组织中吸收数据专家,而不仅仅是研发。MDM是我们公司内部的战略计划,我们的企业数据湖也是如此。这个数据湖平台服务于整个公司所有业务领域的所有商业智能报告、分析和人工智能,使我们能够创建智能数据产品,并为公司开辟新的营收渠道。
InfoQ:在临床和医疗行业中,数据架构和数据技术的新趋势是什么?
Santikary: 临床研究和卫生保健技术的变化速度是前所未有的,因为新的创新和发现正在以惊人的速度推动进步。以下技术在临床研究中发挥了巨大的作用:
人工智能,机器学习和深度学习:我们看到人工智能的使用继续扩大,特别是在以下几个类别:使临床试验智能化,优化患者招募/保留,并为更明智的决策获得更大的洞察力。
区块链:区块链技术允许从业者共享他们的数据,而不必担心会损害数据安全,因为区块链数据是不可变的,对数据的任何更改都可以跟踪。
云计算和大数据:数据分析和可视化的进步使临床研究人员能够探索和与大规模的、通常是聚集在一起的数据体交互。对于临床试验中的患者来说,在研究过程中,可以快速拍摄每顿饭的照片来获取关于他们情绪或日常饮食摄入的数据,这几乎是无限的数据潜力,将改变临床试验数据分析的格局。
查看英文原文:Data Lake and Modern Data Architecture in Clinical Research and Healthcare