人类基因组计划与生物信息学之间的关系
摘要:
生物信息学是
20
世纪
80
年代末随着人类基因组计划启动而兴起的一门
新的交叉学科。本文回顾了人类基因组计划与生物信息学的发展过程,梳理了
两者之间的关系。
1
人类基因组计划
人
类
基因
组计
划
(
Human
Genome
Project,
HGP
)
由
美国
科学
家
Rena
to
Dulbecco
于
1986
年率先提出,旨在阐明人类基因组
3
×
10
9
核苷酸序列,破译
人类全部遗传信息,使得人类第一次在分子水平上全面认识自我。人类基因组
研究的主要任务有两个:
(
1
)
“读出”
人类基因组全部
ATCG
语言,即全基因
组核苷酸顺序测定;
(
2
)
“读懂”
人类基因组全部
ATCG
语言
,
即人类全部基
因的编码及功能的研究
[1]
。
1990
年美国首先正式启动“人类基因组计划”
(
HGP
),
决定在
15
年内提供
30
亿美元的资助
,
完成人类全部
DNA
分子核苷酸序
列的测定。随后
,
英国、法国、日本、加拿大、前苏联、中国等许多国家积极响
应。
1993
年马里兰州
Hunt Valley
会议上经美国人类基因组研究中心
(
CHGR
)
修
订后的
HGP
内容包括
:
人类基因组作图
(
遗传图谱、物理图谱
)
及序列分析;基
因的鉴定;基因组研究技术的建立、创新与改进;模式生物
(
主要包括大肠杆菌、
酵母、果蝇、线虫、小鼠、水稻、拟南芥等
)
基因组的作图和测序;信息系统的
建立,信息的储存、处理及相应的软件开发;与人类基因组相关的伦理、法律
和社会问题的研究;研究人员的培训;技术转让及产业开发;研究计划的外延
等几方面。
HGP
计划前
5
年的重点是制作遗传图谱和物理图谱,在此过程中不
断发展出新的作图、
DNA
测序、基因鉴定等实验技术,使研究速度不断加快
[2]
。
随之而来的是信息的爆炸性增长,迫切需要对海量生物信息进行处理。
2001
年
的春天,科学家公布了人类基因组的绝大部分序列。即:人类基因组的工作草
图,这意味着基因组的研究进入信息提取和数据分析的崭新阶段。根据国际数
据库的统计
1999
年
12
月
DNA
碱基数目为
30
亿,
2000
年
4
月
DNA
碱基数目
是
60
亿,大约每
14
个月翻一番。面对如此庞大的数据量,只有通过计算机才
能够有效地管理和运行。基因组研究最终是要把生物学问题转化成对数字符号
的处理问题,要解决这样的问题就必须发展新的分析理论、方法、技术、工具
和依赖计算机的信息处理
[3]
。
2
生物信息学主要研究内容
生物信息学是本世纪
80
年代末开始随着基因组测序数据迅猛增加而逐渐兴
起的一门新兴学科领域
,
它的核心是基因组信息学。基因组信息学作为一个学科
领域
,
包括基因组信息的获取、处理、存储、分配、分析和解释。基因组信息学
的关键是“读懂”人类基因组的核苷酸顺序
,
即全部基因在染色体上的确切位置
及各
DNA
片段的功能
[4]
。它的内涵包括
:
①要发展有效的能支持大尺度数据需要
的软件和数据库
;
②需产生若干数据库工具
,
包括电子网络等远程通讯工具
,
能容
易地处理日益增长的物理图、遗传图、染色体图和序列信息
,
并在这些数据资料
中进行比较。③要研究算法和分析技术
,
用于解释基因组信息
,
例如预测功能基