项目经验-陈杰

项目一:家鸡基因组多态性图谱数据库
(http://chicken.genomics.org.cn)
项目简介(功能与用途):
家鸡基因组多态性图谱是在“国际鸡基因组”研究计划完成之后,由我国科学家领导的国际合作研究小组对鸡基因组进一步研究分析的重要成果。多态性图谱是通过三种家鸡(肉鸡、蛋鸡、乌鸡)基因组序列与红原鸡基因组框架图进行比较,将发现的280多万个单核苷酸碱基变异位点标记到鸡的全基因组序列图谱上而得到的。其中90%的位点能够得到实验验证,70%的为可用作于遗传标记的常见变异位点。这些数据对于遗传学、基因组学等多类学科的研究都将有重要意义。
这个数据库项目主要目的是用以整合领域研究成果、共享相关研究数据,同时希望辅助一些研究工作的开展。数据库中包含了有高质量的基因组多态性数据、cDNA数据、鸡基因与人疾病基因的Orthologs、遗传标记、QTLs等多层次的生物学数据。按照研究工作的需求,将数据重新组织,并建立数据之间的相关性,最终以图表的形式直观的将数据、数据之间的关系以及不同的数据的分布展示出来。为研究人员提供最简便的应用。同时提供了多类用以不同目的的数据分析以及数据获取的工具,方便研究人员取得相关的研究数据。
项目运行环境:
  数据库:SUN 10000(Solaris 8 + Oracle9i)
Web服务器:SUN 10000 (Solaris 8 + Apache2.0 + Tomcat5.0.28 + Java1.4.02)
  计算服务器:IBM p690 (AIX5.0)、SGI Origin3800 (IRIX + PBS)

项目难点与解决方案:
这个项目中我们遇到了三个难点:
1、将不同来源的信息进行整合时,遇到了数据的“多态”,对数据准确性提出了较大的挑战。
2、数据关系复杂。生物信息学的数据量非常大,数据关系处理不好很容易造成数据冗余,同时也会增加后期开发的复杂程度。
3、数据关系复杂,增加了数据展示时的难度。

对第一个问题,从研究工作的要求出发,我们将获得的全部数据按照不同的研究层次以及研究需要重新分析。主要是针对发现的“多态”的数据,将这些数据利用我们的计算资源再一次分析从而保证了我们入库数据的准确性,同时我们也将获得的数据结果和生物信息学领域中专业的NCBI库中的数据进行比较,从多方面增加我们数据库系统中数据的可信性。
为了整理清楚不同数据之间的关系,我们建立了多个研究应用模式,分别来模拟用户的访问、数据库动作、程序操作。根据目前的研究内容和研究的发展趋势,我们对数据进行了不同角度的分类,多次与领域内的生物信息学研究人员交流。最终完成的数据关系设计不但兼顾了生物学研究意义,也在一定程度上简化了开发的难度。
对于数据展示的问题,我们提供了多类数据查询方法,然后将同类的数据进行抽象,使得通过不同的查询方法获取的不同数据采用同一方法处理。同时,按照我们在数据分析阶段的分析方法,我们最终采用将数据全部Map到鸡基因组上的形式来展示数据。这样最终用户可以根据自己的实际需要来选择将不同层次以及不同意义的数据显示在一张图表中,从而使数据之间的关系更为直观,也降低生物学家应用的难度。

项目成功与失败的经验归纳:
这个项目是非常成功的一个项目,它是我国继水稻全基因组数据库(http://rice.genomics.org.cn)之后建立的又一个国际性的生物学数据库。生物信息学的研究发展必要依赖于计算机等高新技术的不断引入,这个生物学数据库的建设成功一方面是我们自身对于研究领域需求的了解,另一方面是我们长期的技术积累,同时也得益于我们的开发平台和数据库平台的选择。
项目最终成果还以论文的形式发表,希望能够得到同行更多的认可,希望我们的系统能够有更多的人来使用。
你在项目中岗位与贡献:
在此项目中,我主要从事数据库设计和系统构架工作。根据我自己所掌握的两个学科的专业知识以及对项目本身的了解,我完成了项目的数据库设计,同时通过项目小组会等多种形式不断的来完善最终的设计。给出了项目最终的应用平台,同时与项目负责人一起完成了项目的详细设计文档。并参与了部分程序的开发工作。
此外我也参与了发表的论文的一部分工作。
ChickVD: a sequence variation database for the chicken genome
Nucleic Acids Research 33, 438-441 (2005)
A genetic variation map for chicken with 2.8 million single-nucleotide polymorphisms
Nature 432, 717-722 (2004)

项目二:家蚕基因组数据库
(http://silkworm.genomics.org.cn)
项目简介(功能与用途):
作为鳞翅目昆虫而且是四大全变态昆虫的一种,蚕被认为是在农业领域最具破坏性的害虫,其他几种分别是烟草蚜虫,棉花铃虫。同时他们也有相当重要的益处,蝴蝶和蛾作为花粉传播者和食物链中的一环在生态环境上扮演了重要的角色,而且他们也是一种非常有用的在研究发育神经生物学和化学,行为进化生态学上的模式系统。蚕基因组目前在2004年由我们中心与西南农业大学联合完成了测序工作。
获取的数据总共大小是428.7百万碱基对,通过使用N50分析,连续克隆群(contig)和骨架(Scaffold)的大小分别是12.5和26.9千个碱基对。我们的组装包括了212个已知家蚕基因中的90.9%(全长cDNA序列),16425个EST簇中的90.9%,还有554个来自其他鳞翅目昆虫的已知基因的82.7%。不同类型的分析方法以及不同层次的数据分别能够为不同的研究人员提供帮助。因此将这些数据组织并建立提供对外服务的数据库系统是很有必要的。
与家鸡基因组多态性图谱不同的是,这是一个全基因组的数据库,在后台的数据组织、数据分类等上面有一定的差别,但对外提供的数据服务功能有一定的共性。
项目运行环境:
  数据库:SUN 10000(Solaris 8 + Oracle9i)
Web服务器:SUN 10000 (Solaris 8 + Apache2.0 + Tomcat5.0.28 + Java1.4.02)
  计算服务器: SGI Origin3800 (IRIX + PBS)

项目难点与解决方法:
和我们做过的水稻基因组数据库不同,由于资金等方面的问题,我们在2004年完成的是基因组的框架图,这对我们目前的研究数据使用要求已经足够,所以后续的精细图工作并没有马上开展。因此对覆盖度为5.93x的数据来说,我们不能够像水稻那样,将全部的数据很方便的挂到染色体上。也就是说,在数据库中,不同的数据之间很难建立直接的关系。
面对这个问题,我们从生物学的角度重新将数据做了分类,我们发现不同的数据之间都与cDNA数据之间有着明确的对应关系。因此我们通过cDNA为不同的数据建立相应的关系表,从而完成了数据库的设计。

项目成功与失败的经验归纳:
  这个基因组数据库从设计到最终建设完成,一共用了一周的时间。最终我们所设计的全部功能都完成。项目能够在短时间内得以完成,主要原因首先是我们有了一定的技术和经验的积累,其次是我们能够在短时间内将数据以及数据关系分析透彻,第三点是我们从家鸡基因组多态性图谱数据库中复用了一部分代码。

你在项目中岗位与贡献:
  在这个项目中,我所承担的角色与项目一中的角色一样,主要从事数据库设计和系统构架工作。根据我自己所掌握的两个学科的专业知识以及对项目本身的了解,我完成了项目的数据库设计,同时通过项目小组会等多种形式不断的来完善最终的设计。给出了项目最终的应用平台,同时与项目负责人一起完成了项目的详细设计文档。并参与了部分程序的开发工作。
此外我也参与了发表的论文的一部分工作。
SilkDB: a knowledgebase for silkworm biology and genomics.
Nucleic Acids Research 33, 438-441 (2005)

项目三:CNGrid—生物信息应用网格
(http://biogrid.genomics.org.cn)
项目简介(功能与用途):
CNGrid是国家“十五”863计划“高性能计算机及其核心软件”重大专项支持建设的网格示范平台,它是聚合了高性能计算和事务处理能力的新一代信息基础设施试验床,通过资源共享、协同工作和服务机制,有效支持科学研究、资源环境、先进制造和信息服务等领域的应用,以技术创新推动国家信息化建设及相关产业的发展。目前通过专项支持的网格软件已使中科院计算机网络信息中心、上海超级计算中心等6个城市8个网格结点实现了互联互通,建成了可支持高性能计算、海量数据处理、信息服务的网格平台,总计算能力达到16万亿次,存储能力达到200TB。CNGrid已经建立了运行管理与技术支持中心,并投入实际运行。已支持了科学研究、资源环境、制造业和服务业的11个行业应用,部分应用系统如地质调查、气象预报、新药研发等已达到准生产运行的水平。
生物信息学数据的产出在不断加速,数据类型和内容也更加丰富。据统计,截止到2005年初GenBank数据库中已经有44.6亿碱基数据,4000万条基因序列,包括人类、小鼠、大鼠、等哺乳动物;拟南芥、水稻等植物;鱼类;昆虫类;线虫类;酵母等真菌类;各种原核生物;以及病毒等。也就是说包含到生物的各个进化分支。另外,牛、猪等许多物种已经在测序过程中,或是已经列入测序计划。初步统计,除了GenBank 等常用数据库外,各研究单位还建设了529个原核生物基因组数据库、461个真核生物基因组数据库,这中间已经公开的有232个。
生物信息应用网格是网络技术在生物信息领域中的重要应用,利用网格技术的优点来帮助我们完成生物信息学数据的整合、共享,以及利用信息平台来实现项目协作等多类功能。
项目运行环境:
  数据库:SUN 10000(Solaris 8 + Oracle9i + MySQL4.0)
网格服务器:2曙光3000(AIX + PBS +GOS v2.0)、SUN 10000 (Solaris 8 + Apache2.0 + Tomcat5.0.28 + Java1.4.02 + GOS v2.0)
  计算服务器: IBM p690 (AIX5.0)、SGI Origin3800 (IRIX + PBS)

项目难点与解决方法:
这是一个综合性非常强的项目,它历时3年才完成。而且项目本身是新技术在生物信息领域中的一种探索和尝试,因此建设过程中我们遇到了许多问题,有技术方面的也有管理方面的。其中与数据库相关的问题主要有:
1、如何使成熟的数据库系统能够运行与网格系统之上,这是我们一直在研究的一个重要问题。
2、大量数据在地理上分布的机器以及异构机器上的数据库之间的同步问题。

在2003年Oracle公司发布了其专门针对企业网格应用的Oracle10g,但由于项目自身的一些要求以及既定设计的原因,我们并没有采用Oracle10g。而是利用CNGrid项目所开发的网格平台工具独立开发了一些服务,这些服务主要提供针对数据库的操作。这样网格用户无需关心后台的数据库系统。同时我们将常用的数据库操作都做了专门的服务,因此数据查询、数据传输、数据更新等工作都能够以一种虚拟的方式运行在网格平台上。当然这种解决方案也只是一种暂时的解决办法,Oracle10g的整体解决方案是我们在一步工作时会重点考虑的方案。
因为数据量大,而且不同的研究中心所研究的侧重点不同,所产生的数据也不同。而作为我们生物信息应用网格,整合各方面的相关数据是一个重要的工作。前期我们采用人工的办法,但这种方法不适合我们长久应用到系统中。我们目前采用的解决方案是类似于DNS服务一样的方法,我们在每一个数据库服务中提供一个资源表,由专门的服务来负责更新接入到网格平台中的不同的数据库,在希望获取异地资源时,首先通过本地资源表来获取资源的地址,然后再去通过数据传输服务来完成数据传输。这种模式在我们研究中心的北京、杭州两个中心的两台曙光3000和一台SUN10000大型计算机上运行的情况良好。

项目成功与失败的经验归纳:
本项目在2005年12月份结题,通过科技部验收,而后在2006年初获“北京市科委科技进步奖”。生物信息应用网格项目本身包含的内容非常多,数据库方面的工作是其中最有价值的工作之一。
首先,在技术上我们积极合作,与中科院计算机技术研究所建立了良好的合作关系,许多技术问题由我们联合攻关来解决,这在新技术的应用上是有非常大的帮助。
其次,得益于在前期的设计阶段我们对数据库操作的分解以及单独服务的创建。单独的数据库服务使得任务之间能够并行,异构数据库以及分布数据库资源能够同时被操作,这样使得我们在数据处理上花费了很少的时间。
第三,整个项目有着非常良好的组织,各项目组之间定期进行项目总结会,在会上相关交流技术方面的进展,反馈应用的成果以及服务部署过程中的各类问题。

你在项目中岗位与贡献:
作为项目的负责人,我负责项目总体方案的制定以及阶段性目标的制定,同时与项目组一起来实施项目的设计。
项目最终得以顺利的完成,同时项目作为我国第一个网格技术在生物学方面的应用试点,是非常成功的。由于出色的完成,CNGrid项目获得了北京市科委评的科技进步奖。在生物信息学方面,以这个项目为基础,国家自然科学基金委、教育部等部门又组织了我们进行更深入一步的探索。





项目四:CNGI—示范项目
项目简介(功能与用途):
本项目在中国国家网格(China National Grid,简称CNGrid)目前的研究成果的基础上,进一步基于中国下一代互联网(China Next Generation Internet, 简称CNGI)构建网格平台,并在高性能计算、海量数据处理及信息服务等方面开展示范性行业应用研究,利用CNGI传输带宽高、服务质量好、安全性高等特点,解决这些行业领域由于目前网络原因无法有效解决的问题,提高行业领域的网格应用水平,真正为CNGI起到网格应用的示范作用。
面对生物信息学研究项目的主要研究内容包括:基于CNGI的中国国家网格升级改造,实现网格节点间高带宽的数据交换,高性能的数据通信,完善平台的安全管理与运行服务机制。生物信息研究是国家急需又有一定基础的应用进行研究与开发,是将生物信息网格服务运行在基于CNGI的中国国家网格平台上,满足行业应用的需求的重要工作。研制与开发基于CNGI的支持高性能计算、海量数据处理及信息服务的网格软件。
由于在CNGI网络平台上,网络性能有了极大的提升,因此大数据量的数据处理、存储、传输等工作将不在是瓶颈,我们可以将工作的重点放在如何更大限度的提升系统的运行效率和其它优化上。在数据库方面,将主要是如何让数据库以网格服务的形式进行工作。
项目运行环境:
  数据库:SUN 10000(Solaris 8 + Oracle9i + MySQL4.0)
网格服务器:2曙光3000(AIX + PBS +GOS v2.0)、SUN 10000 (Solaris 8 + Apache2.0 + Tomcat5.0.28 + Java1.4.02 + GOS v2.0)
    计算服务器: SGI Origin3800 (IRIX + PBS)
    网络协议及平台:IPv6 + CNGI
项目难点与解决方法:
CNGI平台是基于IPv6协议的,全新的基础平台,在这个平台上进行数据库开发和部署工作主要的技术难点是原有数据库服务的升级,以前全部的数据库访问都是基于目前的网络协议,并没有涉及到IPv6协议平台上的操作。
由于这部分工作主要是在网格服务中间件,如果我们所使用的网格服务中件间能够兼容IPv6协议方式,我们的系统直接利用中间件所提供的接口也将能够非常方便的实现操作。因此中件间开发部分对此在努力的进度尝试。新的网格中件间已经基本完成开发。

项目成功与失败的经验归纳:
这个项目目前还没有完全结束。项目本身是新的应用在CNGI平台上的示范,主要是为了利用CNGI平台来开展将来的工作。目前我们的进度可以了解到CNGI网络为我们这些应用提供了非常好的网络环境。一些服务已经运行于CNGI平台之上,这些服务的运行也证明了新的平台是能够为我们所用的。
对于我们的生物信息应用网格来说,全部的服务在目前的网络环境上运行情况一切正常,已经部署到CNGI上的其它服务的运行对我们的工作将起到非常好的推动作用。

你在项目中岗位与贡献:
  在本项目中,我是项目的负责人。同时是CNGI项目总体组成员。在项目中我主要规划项目的总体目标和阶段目标,同时也负责系统的设计以及实施工作。此外还有数据库的管理、维护工作等,也需要我的参与。




项目五:其它项目
我的工作大部分同时涉及到计算机和生物技术两个专业,专业背景对我帮助非常大。因此在2004年底我就开始负责全部的生物学数据库开发工作。
到目前为止,我还参与开发过“蝗虫EST数据库”、“高原生态数据库”、“水稻全基因组数据库II期”、“作物虚拟育种数据库”、“HLA配型数据库”、“人类肝脏蛋白质组数据库”、“肽分析实验室管理系统”、“海啸遇难人员识别数据库”、“健康信息管理系统(为公司目前在研产品)”等等数据库系统。这里不一并介绍了,对于工作中的一些经验及感想我会在另一个文档中论述。
目前我们所使用的数据库主要是Oracle和MySQL。大部分开发都是基于这两个数据库系统来进行的。 



 
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值