近日,南京基因与细胞实验室合作团队取得阶段性成果,东南大学-生命科学与技术学院-李健教授团队在《Briefings in Bioinformatics》(影响因子IF=11.622)上发表题“HLA3D: an integrated structure-based computational toolkit for immunotherapy”,开发了一个全面的免疫治疗计算工具包—HLA3D,为不同科研单位提供全面的HLA结构信息查询与分析,促进基于结构的免疫治疗,并通过基因与细胞实验室免费开放使用。
HLA3D数据库技术栈简述
本系统平台有海量多维的数据,每天还有数据不断的更新以及数据的清洗,数据有结构化与非结构化的数据需要存储和检索,因此,就不能完全采集MySQL之类的数据库,我们采用了Clickhouse作为OLPA引擎,neo4j作为知识图谱可视化引擎,Elasticsearch作为全文检索索引,目前采用了 mongodb 作为文档数据库 存储被标签标记半结构化的数据, redis作为门户网站及用户信息的缓存处理环节、MySQL作为系统管理、配置数据库,开发语言 采用了Java Springboot 开发框架,通过我们自研的SmaterAPI开发工具,将开发周期缩短了60%以上。
目前数据存储量规模在1.96TB,Clickhouse有3个集群节点,Elasticsearch有8个集群、2个集群分组,MySQL采用了主从备份,neo4j目前采用了一台到多台机器transition模式,由于目前缓存数据不算很多redis目前使用了单台机器节点。
HLA3D数据库有什么功能?
该数据库覆盖了美国人群、欧洲人群、中国人群所有常见HLA Ⅰ类分子的序列、结构、频率、文献、单核苷酸多态性(Single Nucleotide Polymorphism, SNP)位点信息,其中HLA的结构数据不仅包括公共数据库中可用的PDB(Protein Database Bank)结构,还包括通过同源建模和分子对接获得的PDB结构,可为不同人群的HLA进行全面分析,阐释与 HLA相关疾病的致病机制。
(1)数据检索:搜索不同类型的HLA分子和肿瘤相关突变数据;
(2)结构查询:通过HLA等位基因查询其结构以及结构的响应,包括注释信息与可视化结果;
(3)移植风险评估:可通过HLA 分子的结构差异比对、序列差异比对、差异位点可视化以及风险预测评估,全面评估错配HLA供体的移植风险;
(4)免疫原性肽预测:可实现序列分析、热点突变分析、肿瘤抗原肽预测、免疫原性肽筛选、肽-HLA对接的构象模拟等肿瘤新抗原预测流程;
(5)数据提交:用户上传HLA分子的结构数据。
HLA3D 提供了一个用户友好的界面帮助用户查询、浏览和可视化HLA的详细信息,并提供分析预测、结果下载、数据统计等服务,助力干细胞治疗、器官移植和肿瘤新抗原领域的研究,推动HLA分子结构数据在免疫治疗领域的应用。
如何获取HLA3D数据库?
1、HLA3D工具包可通过HLA3D在线使用。
2、联系南京基因与细胞实验室工作人员(Tel:15261898318;e-mail:xxlyukui2013@163.com)。
3、联系思通数科 技术&产品负责人 (微信:techflag ,Tel: 13505146123;e-mail:wangtao@stonedt.com)
关于开源开源项目
我们几乎每天都在治理与实践 海量结构化和非结构化数据的挑战,对此采用了大量的开源技术框架。在此,将通过技术blog与开源社区将我们的技术经验与研发成果与大家分享。
欢迎对我们的项目 pull request 或者 留言对我们提出建议。您的支持和参与就是我们坚持开源的动力!请 star 或者 fork!
我们专注互联网开源数据智能处理,为用户提供“数据采集”、“数据标记”和“数据挖掘”三方面核心能力,以有效的方式使用互联网数据,提高生产力及决策能力。 了解更多请关注微信公众号:思通数据