【巨杉案例】SequoiaDB+Spark搭建医院临床知识库系统

巨杉数据库SequoiaDB

于 2017-09-04 13:38:32 发布

阅读量4.7k

点赞数

文章标签： SequoiaDB Spark 医疗知识库

本文链接：https://blog.csdn.net/SequoiaDB_Official/article/details/77836550

版权

本文介绍了如何利用SequoiaDB的JSON存储和分布式块存储模式，结合Spark的计算能力，搭建医院临床知识库系统。SequoiaDB支持异构数据整合，适合处理结构化和非结构化数据，而Spark通过RDD操作实现数据处理。系统架构包括数据导入流程和物理架构，为医疗行业提供大数据解决方案。

摘要由CSDN通过智能技术生成

1、背景介绍

从20世纪90年代数字化医院概念提出到至今的20多年时间，数字化医院（Digital Hospital)在国内各大医院飞速的普及推广发展，并取得骄人成绩。不但有数字化医院管理信息系统（HIS)、影像存档和通信系统（PACS)、电子病历系统（EMR)和区域医疗卫生服务（GMIS)等成功实施与普及推广，而且随着日新月异的计算机技术和网络技术的革新，进一步为数字化医院带来新的交互渠道譬如：远程医疗服务，网上挂号预约。

随着IT技术的飞速发展，80%以上的三级医院都相继建立了自己的医院信息系统（HIS）、电子病历系统（EMR）、合理用药系统（PASS）、检验管理系统（LIS）、医学影像存储与共享系统（PACS）以及移动查房、移动护理系统以及与大量的第三方接口整合应用，IT在医疗领域已经进入了一个大数据时代，随着HIS的广泛应用及其功能的不断完善，HIS收集了大量的医疗数据。

进入2012年，大数据及相关的大数据处理技术越来越多地被国人提及，人们也普遍的接受大数据的概念，大数据技术也影响着我们的日常生活，互联网行业已经得到广泛应用，电信、银行等行业也已经在广泛尝试使用大数据技术提供更稳健和优质的服务。

在目前情况下，医疗IT系统收集了这些集其有价值的数据，但是这些大量的有价值的历史医疗数据并没有发挥出其应有的价值，不能为一线临床医生提供医疗诊断辅助，也不能为医院管理和经营决策提供必须的支持。

针对以上现状，思考拟利用医院现有的历史就诊记录、处方、诊断、病历数据，挖掘出有价值的基于统计学的医学规则、知识，并基于这些规则、知识信息构建专业的临床知识库，为一线医务人员提供专业的诊断、处方、用药推荐功能，基于强大的关联推荐能力，极大的提高医疗服务质量，减轻一线医疗人员的工作强度。

2、主要技术架构介绍

2.1SequoiaDB

SequoiaDB巨杉数据库，是一款企业级分布式NewSQL数据库，自主研发并拥有完全自主知识产权，没有基于任何其他外部的开源数据库源代码。SequoiaDB支持标准SQL、事务操作、高并发、分布式、可扩展、与双引擎存储等特性，并已经作为商业化的数据库产品开源。

SequoiaDB采用JSON文档类型定义数据存储模型（类对象存储）。JSON作为当今应用设计中主流的存储与通讯协议格式，使用的数据模型与平台、语言无关，从而为企业内异构数据的整合提供了标准方式。传统企业内存在大量的结构化数据资产需要用分布式大数据的手段处理，同时又希望尽量保留其关系型结构，JSON数据模型则恰好满足这些需求。

除了JSON存储引擎以外，为了提高非结构化文件的读写性能，SequoiaDB核心引擎提供了分布式块存储模式，可以将非结构化大文件按照固定大小的数据块进行切分并存放于不同分区。这一功能可以实现海量非结构化文件的存储，可以引用于如影像存储等场景。

2.2Spark

Spark是UC Berkeley大学AMP实验室开源的类似MapReduce的计算框架，它是一个基于内存的集群计算系统，最初的目标是解决MapReduce磁盘读写的开销问题，当前最新的版本是1.5.0。Spark—经推出，就以它的高性能和易用性吸引着很多大数据研究人员，在众多爱好者的努力下，Spark逐渐形成了自己的生态系统( Spark为基础，上层包括Spark SQL，MLib，Spark Streaming和GraphX),并成为Apache的顶级项目。

Spark的核心概念是弹性分布式存储(Resilient Distributed Datasets, RDD)间，它是Spark对分布式内存进行的抽象