三代测序关键计算技术开发及应用
Abstract
三代测序技术具有读长长(约20kbp),无PCR扩增偏好性和碱基修饰敏感性等特点,在动植物的基因组de novo组装和表观遗传检测研究中具有明显的优势。作为二代测序技术的有力补充或替代,已成为近年来研究的热点,其研究成果常发表于CNS等国际顶级期刊。
目前三代测序数据高测序错误率(12-15%)是三代数据分析面临的巨大挑战,高错误率引起的巨大计算资源消耗是阻碍三代测序广泛应用的重大瓶颈问题。
首先,在三代测序基因组组装方面,我们提出了全局种子投票打分模型和局部图序列校正模型,开发了快速组装系统MECAT。
MECAT在人数据集的组装速度是同类软件(Canu和FALCON)17-56倍,该研究成果于2017年发表在Nature Methods期刊,目前MECAT已组装了20余个中国特色植物基因组。
其次,在表观遗传学修饰检测方面,针对PacBio大型基因组DNA-6mA资源消耗问题,我们提出了基因组区域划分的并行检测方法并合作开发了Basemodes Spark。基于该软件首次系统地揭示了人类DNA-6mA图谱的分布规律,基因表达调控模式,甲基化酶(N6AMT和ALKBH1)及其与癌症关系,该研究成果于2018年发表在Molecular Cell杂志上。
此外,针对Nanopore表观修饰检测精度低问题,我们建立了识别Nanopore表观修饰(5mC和6mA)的深度循环神经网络(RNN)模型,开发了相应的软件DeepMod,实现了高精度全基因组单碱基水平检测5mC和6mA,5mC和6mA的检测平均精度可分别高达99%和90%,该成果于2019年发表在Nature Communications杂志上。
Bio
生物信息学博士,中山大学中山眼科中心副研究员,眼科学国家重点实验室独立PI。长期致力于生物大数据分析方法开发及应用研究,近年来针对三代测序基因组学、表观遗传学和蛋白质组学基础研究及应用中出现的计算瓶颈问题建立了系列关键算法和支撑软件。主要研究方向有:
(1)三代测序数据基因组计算方法研究:我们提出了全局种子投票打分和局部图序列校正计算模型,开发了快速组装系统MECAT,该系统比目前同类软件组装速度快17-56倍;
(2)三代测序表观遗传学方法开发及应用研究:我们提出了三代测序技术的DNA-6mA甲基化检测并行计算模型,首次系统揭示了人类DNA-6mA甲基化图谱,拓展了人类表观遗传学的研究方向;并且建立了首个识别Nanopore电信号修饰的深度学习模型,其鉴定5mC和6mA的精度可以高达99%和90%,拓宽了Nanopore测序技术应用领域;(
3)蛋白质组计算方法研究及应用:我们提出融入质谱峰强度特征的蛋白鉴定算法和磷酸化位点评估方法,显著提升了蛋白质组学技术的分析水平。
目前以第一或通讯作者在Nature Methods、Molecular Cell、Nature Communications等期刊发表高水平SCI论文十余篇,先后开发NECAT、DeepMod、MECAT和FANSe2等十余个生物信息学分析工具。