hadoop医疗领域实践保存

最新推荐文章于 2024-05-24 01:06:20 发布

takes1

最新推荐文章于 2024-05-24 01:06:20 发布

阅读量448

点赞数

文章标签： big data 大数据

原文链接：https://blog.csdn.net/weixin_44063504/article/details/105958892

版权

1、下一代基因测序（NGS）是一个经典的大数据应用，它面临双重的挑战，即巨量原始异构的数据，以及NGS最佳实践的快速变化。另外，许多前沿研究需要与外部组织的不同数据进行大量的交互。这需要强大的工作流程工具来处理大量的原始NGS数据，而且足够灵活以跟上快速变化的研究技术。它还需要一个方法来将这些大量外部组织的数据有意义地整合到Novartis的数据, 如1000 Geomes, NIH 的 GTEx (Genotype-Tissue Expression,基因型组织表达)和 TCGA (The Cancer Genome Atlas,癌症基因组图谱)-特别是临床数据, 表型性数据, 实验数据和其他相关数据。 Novartis 团队选择了 Hadoop 和 Apache Spark 来构建工作流程系统，使其能够集成，处理和分析各种数据来为下一代基因测序（NGS）研究服务并紧跟科研脚步。

医保的成本推动了对大数据驱动的医保应用系统的需求。医保行业中的技术决策者不会忽略大数据带来的效率提升，经济吸引力和快速的创新步伐，这些都可以用在医保行业中并使行业受益。许多人发现，对医保数据进行数字化和共享的新标准和激励措施–以及商用硬件产品在存储和并行处理方面的改进和价格的下降–正在导致医保行业的的大数据革命，其以更低的成本提供更好的服务为目标。

医保行业可以通过大数据和高级分析来获得巨大收益。

1. Valence Health: 提升医保结果和财务状况
Valence Health 使用MapR公司的数据融合平台(Converged Data Platform）来建立一个数据湖并作为公司主要的数据仓库。 Valence每天从3000个数据输入源接收45种不同类型的数据。这些关键数据包括实验室测试结果、患者健康记录、处方、疫苗记录、药店优惠、账单和付款, 以及医生和医院的账单, 这些都用来提升决策来改善医保结果和财务状况。该公司快速增长的客户和日益增加的相关数据量正在压垮现有的技术基础设施。

在采用MapR的解决方案之前，如果收到一个数据源发来的2千万个实验室测试结果，他们需要22个小时来处理这些数据。MapR把这个处理时间从22小时降到20分钟，并且使用更少的硬件。Valence Health现在也可以处理之前很难满足的客户要求。例如，一个客户可能打电话来说”三个月前我发给你们了一个错误的文件，我希望把那个文件拿掉。”他们传统的数据库解决方案可能要3到4周的时间才能找到那个数据并删除。MapR的快照功能提供了定点恢复，这使得Valence可以分分钟回滚到那个时间点并删除那个文件。

2.UnitedHealthcare: 欺诈，浪费和滥用
UnitedHealthcare 为近5千1百万用户提供健康保险和服务。和该公司合作的有超过85万医师和护理人员，全国范围内大约有6100所医院。他们的账目完整(Payment Integrity)小组的艰巨任务是确保所有账单都按时正确付款。面对每天超过1百万个的账单(10TB的数据)，他们之前的处理方式是特制的，严重依赖于规则，并受制于数据孤岛和碎片化的数据环境。UnitedHealthcare 采用了一个独特的双模型策略，既集中关注业务收益，同时也追求利用最新的技术来不断创新。

他们是这么做的：针对业务收益，该集团建立了一个预测分析’工厂’用来系统地可重复地识别不准确的账单。Hadoop用做现在一个单一平台的数据框架，该平台上建有多种工具来分析各种信息，包括账单，处方，医保参与人，合作医护人员，以及账单审查结果。

他们集中了业务里所有数据孤岛的数据，包含36处数据资产。他们手边现在有多个预测模型(PCR,确定欺诈True Fraud，Ayasdi 等)，这些模型提供了一个潜在的欺诈排序列表，使得他们可以有针对性地和系统化地处理欺诈。

3.Liaison 科技：医保行业数据记录的流处理
Liaison 科技提供了一个云端解决方案来帮助企业来集成，管理和安全保障其数据。它的一个垂直解决方案是针对医保行业和生命科学行业，这两个行业有2个挑战–满足HIPAA合规要求和数据格式及其展现形式的多样性。利用MapR 流，合规挑战中的数据可回溯要求迎刃而解，因为流处理将系统数据记录变成了一个无限的，不可更改的数据转换日志。多样性的挑战在于，一个患者记录可以有多种使用方式-可以是一个文档，可以是一幅图，或者是查询结果 -这取决于不同的用户，可能是制药公司，医院，诊所或医生。利用流处理实时地将数据变化输出到 MapR-DB,HBase,MapR-DB JSON文档，图和搜索数据库，用户可以得到最新的和最适合的数据。另外，通过在 MapR 融合数据平台上开发这一服务，Liaison 可以保障所有数据模块的安全，避免了其他方案的数据和安全孤岛的问题。

4. Novartis Genomics
下一代基因测序（NGS）是一个经典的大数据应用，它面临双重的挑战，即巨量原始异构的数据，以及NGS最佳实践的快速变化。另外，许多前沿研究需要与外部组织的不同数据进行大量的交互。这需要强大的工作流程工具来处理大量的原始NGS数据，而且足够灵活以跟上快速变化的研究技术。它还需要一个方法来将这些大量外部组织的数据有意义地整合到Novartis的数据, 如1000 Geomes, NIH 的 GTEx (Genotype-Tissue Expression,基因型组织表达)和 TCGA (The Cancer Genome Atlas,癌症基因组图谱)-特别是临床数据, 表型性数据, 实验数据和其他相关数据。

Novartis 团队选择了 Hadoop 和 Apache Spark 来构建工作流程系统，使其能够集成，处理和分析各种数据来为下一代基因测序（NGS）研究服务并紧跟科研脚步。

5. 医保 IoT 创业企业：更快的检测心脏状况
目前的心律分析过程较慢而且是手动分类的。医务人员首先将各类设备上采集的数据批量上传到分析软件，然后医疗分析师查看并分类数据并向医生和医院提交报告，最后由他们对患者作出医疗决定。该过程耗时24小时以上 - 这使得医生访问患者数据长时间滞后，增加了紧急情况下的医疗风险。

利用MapR-FS，Telemed能够通过NFS将各种医疗设备的数据直接采集到其数据集群并实时产生患者洞察报告。该解决方案需要具备高可用性并提供多用户访问(来自 HIPAA 的要求)，因为他们存储了各种医院患者的数据和医疗设备公司的数据。能够按客户分治数据是非常重要的。

在MapR专业服务的帮助下，他们能够在HIPAA审查期限7月18日前搭建好解决方案。该方案架构满足了高可用HA，多用户和实时洞察报告的要求。该公司首席执行官履行了投资者给他的要求和时限，他们将在第3或第4季度开始发售其SaaS解决方案。
————————————————
版权声明：本文为CSDN博主「陈皮话梅棒棒糖」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/weixin_44063504/article/details/105958892

6、应用背景：

起因于国外医院的经验以及广东省人民医院各专业科室差异很大的病床使用率。长期以来，优势专业病源充足，病人候床情况严重，排队入院，相反有些专业空床情况明显，病床使用率仅 65%左右。为此管理层打出了模糊临床二级分科、跨科收治病人、集中床位调配权的一套“ 组合拳” 。

数据源：

患者数据：挂号数据、电子病历、患者基本数据等。

医院数据：各科室床位使用情况、诊疗活动、平均住院费用、平均住院周期等。

实现路径：

对跨科收治病人之后的科与科之间的工作量、收入、支出、分摊成本等指标进行合理的划分，强化了入院处的集中床位调配权，解决病人入院排队情况，使医院更好地履行了社会责任，同时也给增加了医院的效益。

应用效果：

提高病床使用率。病床使用率由 87%提高到 92%，优势专业候床排队现象明显减少。

支持决策判断。优势专科与弱势专科的病人在地域构成比、平均住院费用等标上存在显著差异，支持决策判断。