Greenplum在医疗大数据领域的应用

30d74e76-b897-4c61-9711-709189b4acdd.jpg




《Greenplum走进全国》系列技术研讨会济南站7月3日成功举行。在过去的三篇文章中我们分别为大家整理了基于Greenplum构建下一代数据分析平台基于fdw的跨Greenplum集群数据库查询实现、和Greenplum问题定位及性能调优三篇演讲内容。今天为大家介绍的是第四篇内容。相关PPT已上传Greenplum中文社区网站下载页面cn.greenplum.org/download,欢迎获取。



今天和大家分享的主题是《Greenplum在医疗大数据领域的应用》,Greenplum这几年越来越火,但在医疗行业里面的应用似乎并不多,个人认为主要原因如下:
  首先医疗行业并不是一个特别前沿的行业,不像金融、电信、电力等,在IT设备上投入很大、数据量也非常的高,从而促使这些行业需要不断的追求新技术。而医疗是发展较为缓慢的行业,近年来,虽然医疗行业的大数据也比较火,但是做的好的企业其实并不多。医疗大数据需求很高,但也存在很多的专业性的数据处理需求,如今医疗的信息化发展仍然较为缓慢,需要行业进行更高的投资。接下来我来介绍一下我们医疗数据的具体情况,同时也邀请大家多关注民生行业。   提到医疗行业,就不得不关注医疗数据学。医疗数据有两大特点。   首先,相较于其他行业,医疗数据的规范化程度不高。 我们在日常生活中经常能看到医生手写的病历、拍的X光照片,这些都是非结构化的数据,必须经过二次处理才能形成结构化数据;   第二是,单条数据的体量较大 ,例如基因数据,往往包括成千甚至上万个字段,一条个人信息的原始数据就能达到几个TB。很多数据需要经过精细化的处理才能入库;有一些则需要用到很多人工智能的算法来处理。

47ab3840-8a25-411c-8a67-140516878062.png


基于以上的情况,在选择数据库产品时,我们主要关注以下几点:


 

1

入门门槛不能太高


由于数据库使用对象以非计算机专业的教授和学生为主,因为大家都是非专业的DBA,在SQL编写上都非常不规范、不熟练,因此需要尽量对标准SQL有很好的兼容;

 

2

统一化的集群


之前我们也用了很多其他的数据库,例如Oracle、MS SQL、MySQL等,集群数据量达到一定规模后,只能通过分库分表来提高计算性能,非常麻烦;所以我们需要的是一款一体化的集群,集群内部自动完成分库分表操作;

 

3

现有的数据分析工具多数要求数据离线,不安全;


在这种情况下,在做分析时,需要去别的地方拿数据,比如从hadoop里面去把数据拿出来,因此需要一段等待时间;

 

4

基因数据放在HBase中,维护不便;


HBase虽然大家应用的也比较多,但是维护和使用都不是很方便;

 

5

实时性需求较少


医疗行业的数据分析和计算,对数据实时性要求不高;但是我们要求数据变动的最后一个版本,必须为最后版本;这个背景促使我们可以采用小批量入库,多次抓取的方式来处理数据,而不用像那些实时同步工具那样一有变化马上就发送过来;

 

6

我们没有热数据、温数据和冷数据之分;


我们的数据需要存放在一个地方,最好不要拆分开。在查一个人的基因数据时,有可能需要向前追溯几代人的基因信息,这时也需要有一个强力的计算引擎来快速给出结果。


Greenplum带来了什么?


01

入门门槛较低


Greenplum兼容标准SQL语法,上手较为容易。与PostgreSQL兼容,便于迁移。文档规范,社区活跃。且Greenplum自带完整的运维工具生态,包括备份、迁移、测试、优化等,对运维人员非常友好。

 

02

MPP架构的优势

 

Greenplum是一款MPP架构的数据库,可以解决单体数据库无法很好的完成数据拆分并行计算的问题;不需要分库分表,方便运维。Greenplum的批入库效率特别高,之前我们采用insert入库的性能是260行/s左右,经过改造后,入库性能直接能达到10万行/s左右,完全能满足我们的日常数据入库需求;Greenplum支持线性扩容,能满足医疗行业多变需求。Greenplum的高可用支持,不间断恢复,可以保证电子病历、健康档案、基因测序等敏感数据的安全。


f773de85-4d39-4977-8014-74cc922f38f5.png


03

对R语言的深度支持

 

R语言是医学、生信领域最常用的统计工具。Greenplum天生支持数据库内分析(In-Database Analysis),尤其是对R语言的支持,这是我们给予厚望的一个功能。利用PivotalR包和MADlib机器学习库,充分利用并行计算优势,突破R语言性能限制。

 

04

面向分析的关系型数据库


基因数据数据量大、计算密集,非常适合Greenplum。Greenplum的GPText对非结构化文本数据的支持,也很适合医疗领域的医嘱、诊断、检验等。所有数据在线,原始数据低频使用。多表关联查询和复杂查询效率高。


743895bd-212c-40a8-a5c9-7e0a3198d0e5.png


在使用Greenplum之前,我们已经用Oracle有10多年时间了。开始接触Greenplum还是两年前的事,这么短的时间,我们就果断的决定转换阵营,还是由于Greenplum的强大功能。

 


aac65181-1a66-4e67-8ed1-ed07eb7a73d5.png

作者简介

胡锡峰 国家健康医疗大数据研究院 医疗数据治理研究中心主任
预防医学背景,曾主持多个省级医疗信息化项目,拥有16年医疗信息化行业数据库使用经验,在医疗数据汇聚、标准化、大数据应用方向有深刻认识。


c747e846-7849-4eba-902d-1b11b69c600f.png



f3bb720b-0f32-4f73-a5ce-ea2fc755d0ce.svg

近期活动

efb1cf85-c6fc-4f94-bb0b-8af07a63b98e.svg


60e14a08-5b3a-4172-aa00-8cd7e0dc6cb5.jpg


点击文末“ 阅读原文 ”,获取Greenplum中文资源。


d900cb87-c970-4c0a-97bf-8340036c0c3e.gif

1d4a3430-ad28-435e-a657-20036c37a241.png来一波 “在看”、“分享”和 “赞” 吧!


本文分享自微信公众号 - Greenplum中文社区(GreenplumCommunity)。
如有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值