一、 健康医疗大数据来源
1. 医院医疗大数据
医院医疗大数据产生于医院常规临床诊治、科研和管理过程,包括各种门急诊记、住院记录、影像记录、实验室记录、用药记录、手术记录、随访记录和医保数据等,包括但不限于HIS,LIS,PACS等系统提供的数据。
医疗数据的复杂性在于:一方面包含了大量的医学专业用语,仅疾病名称就有万多种,另外还有数以万计的诊断、手术和药物名称,以及大量影像、医嘱等非结构化数据。另一方面,由于医疗数据是不同临床诊疗服务过程中的产物,所以数据之间关系复杂,并且也很容易会受到各种因素的影响,致使某些数据带有偏倚性。一般来说,医院之间在很多方面是会有差别的,如病人的个体特征和疾病程度、医院的诊断和治疗水平、医疗数据的记录和编码水平等。另外,除了包含病人隐私信息,医疗数据也包含了大量关于医院运转、诊疗方法、药物疗效等信息。这些信息一般都很敏感,某些可能会涉及商业利益。
2. 区域卫生服务平台大数据
区域协同背景下的大数据是重要的健康医疗大数据之一,也是未来健康医疗大数据的发展方向。一方面,区域协同通过健康医疗服务平台汇聚整合了区域内很多家医院和相关医疗机构的健康医疗数据,致使数据量大幅度增加。另一方面,由于平台数据收集事先都经过充分的科学论证和规划,所以会比单独医院数据更为规范。
3. 基于大量人群的医学研究或疾病监测大数据
院校、科研院所、疾控中心等单位提供的数据。一些健康医疗大数据来自于专门设计的基于大量人群的医院研究和疾病监测。专项设计的大数据还包括各种全国性抽样调查和疾病监测数据,
4. 生物信息大数据
生物信息大数据是一类比较特殊的健康医疗大数据。这类数据具有很强的生物专业性。主要是关于生物标本和基因测序的信息。虽然在信息内容表达方式上,生物信息大数据与常见的大数据不大相同,但他直接来源于人体生物标本,并且关系到临床的个性化诊疗和精准医疗。
5. 自我量化大数据
基于移动物联网的个人身体体征和活动的自我量化数据是一种新型的医疗健康大数据。自我量化数所包含的福、心跳、糖、呼吸、睡眠、体育锻炼等信息,除了有利于帮助及时了解自身健康状况,经过一定时期累积在医学上会变得很有用,既有助于识别疾病病因或防控疾病,也有助于个性化临床诊疗,从而塑造一种全新的医疗或健康管理模式。
6. 网络大数据
网络大数据产生于社交互联网关于疾病、健康或寻医的话题、互联网上的搜寻内容和购药行为、健康网站访问行为等等。网络大数据杂乱无章,同一主题的数据既可来自于同一网站众多不同的网络用户,也可来自不同的网站,而且有时又会包含大量音视频、图片、文本等异构性数据。与自我量化等数据相比较,网络大数据是被动性存在,随机性很大,数据中蕴含的信息缺乏稳定性。由于信息噪声很高,缺乏医学专业规律,所以绝大部分数据都不会有医学价值。即使少部分可被用于分析,但也必须要进行深入了解。
7. 用户自生成大数据
用户自生成大数据主要指由大数据平台提供存储或计算服务的用户,自己生成和独享使用的数据。
二、 数据类型
按照数据内容类型分为以下四大类型:
1. 诊疗数据
来自患者在医