基因组变异是产生巨大生物多样性的主要因素,除同卵双胞胎 (Monozygotic twins, MZ)外,也是每个个体的遗传独特性。
临床遗传学家,诊断和管理由人类基因组突变引起的问题。他们的任务是鉴定致病性基因组变异,并解释其对患者及其家人的影响。
因此,人类基因组的运行知识,包括对健康个体中基因组变异规模的认识,对基因组医学的实践至关重要。
基因组
即某生物体单倍体遗传物质的总和。例如人类基因组,包括核 (Nuclear)DNA和线粒体DNA,包含~20,000个蛋白编码基因。
www.genome.gov/genetics-glossary/haploid
基因组结构
即基因组的结构、内容和组织方式,例如基因的位置和顺序。
有关大小的问题
以人类基因组为例:
• 46条染色体 — 22对常染色体和2条性染色体 (男XY,女XX)。
• 3,000,000,000 (30亿)个碱基对 (bp)的DNA。即每个单倍体基因组:3千兆碱基 (Gb)或3,000兆碱基 (Mb)。
• 平均染色体长度为100 000 000 bp,即100 Mb (1亿),从最大的染色体250 Mb到最小的染色体50 Mb,大小变化了5倍。
• 只有约1~2%的人类基因组是编码序列 (“外显子组-Exome”);编码和剪接区域的总长度估计为~35Mb。
• 人类基因组中大约有20,000个编码蛋白质的基因 (“外显子组-Exome”) (视频 | 学习Linux进行GTF解析, 基因组中的趣事(二)- 最长的基因2.7 million,最短的基因只有8 nt却能编码)。
DNA的尺寸以纳米 (1根头发的直径约0.05毫米,把它纵向平均剖成5万根,每根的厚度约1纳米;即1nm=1.0×10^-6 mm)为单位进行测量。从这个角度来看,每个人体细胞有大约2米的DNA,相当于大约60亿bp的DNA。
在遗传性疾病中,病理学可能涉及从整条染色体非整倍性,到单个碱基对替换或缺失,以及这两个极端之间的整个谱 (见表1.3)。
人基因组中,基因组变异/失衡 (Imbalance)的大小
Aneuploidy (e.g. trisomy 21) - 非整倍性 (如21三体); Microscopically 显微镜
个体中的基因组变异
人类基因组
大多数人有约410万~500万个变异 (4.1~5.0 million variants,即个体序列与参考基因组不同的位点) (Ref. 1000 Genomes Project Consortium - 1000基因组项目联盟,2015),其中约2万个在外显子组中,包括大约400个可能损害编码蛋白功能的罕见变异 (Rare variants that potentially impair the function of the encoded protein - 即可能有害的变异)。
尽管99.9%的变异由单核苷酸多态性 (SNP)和短的InDel (插入/缺失)组成,但结构变异影响更多的碱基 — 典型的基因组包含估计2100~2500个结构变异 (1,000个大的缺失、160个拷贝数变异-CNV、915个Alu插入、128个L1插入、51个SVA插入、4个NUMT和10个倒位-Inversion),影响2000万个碱基序列 (Ref. 1000基因组项目联盟,2015)。
人类基因组中的变异
• 约有340万个SNV (单核苷酸变异),即:每1,000个碱基中有1个。原文:Approximately 3 400 000 SNVs (single nucleotide variants) ~1 every 1000 bases.
• 约35万个插入/缺失 (1000基因组项目联盟,2012)。
• 约1,000个大的缺失/重复 (CNV)。
• 约有100个真正的“LOF”变异 (Genuine ‘LOF’ variants; LOF - Loss of function),其中约20个基因完全失活 (MacArthur et al. 2012)。
• 以前被描述为致病的 (Disease-causing),约有50~100个变异,尽管其中许多是错误的结论 (False assertion)。
• 大约50个新发突变 (de novo mutations, DNMs),其中平均约1.3个位于外显子组。
新突变 (产生/固定)的速率
SNV突变速率
最近的文献 (Campbell et al. 2012; Kong et al. 2012)估计,人类基因组中,每世代每碱基的新突变 (New mutation)速率约为1.2×10^-8个替换 (~1.2 × 10^-8 substitutions per base per generation)。在碱基替换方面,父系胚系突变的诱变性比母系高出约4倍 (The paternal germline is ~4-fold more mutagenic than the maternal germline)。此外,Kong等人描述了随着父系而非母系年龄的增长,新碱基替换数量每年近似线性地增加2个突变。另见原文 (见文末),第6章第772页 (“怀孕和生育”-“父亲年龄”)
。
CNV变异速率
使用含4200万个探针的基因组芯片微阵列,来表征CNV的群体变异,据估计,每17名儿童中至少有一名患有新发CNV,但在许多情况下没有明显的临床后果 (Conrad等人,2010)。
原文来源
临床遗传学和基因组学 - Clinical Genetics and Genomics (Oxford Desk Reference). H. Firth, 2th, 2017.
专家顾问:Matthew Hurles,英国威康基金桑格研究所 (Wellcome Trust Sanger Institute),人类遗传学主任。
参考文献
1000 Genomes Project Consortium. An integrated map of genetic variation from 1,092 human genomes. Nature 2012; 491: 56–65.
1000 Genomes Project Consortium. A global reference for human genetic variation. Nature 2015; 526: 68–74.
Campbell CD, Chong JX, Maliq M, et al. Estimating the human mutation rate using autozygosity in a founder population. Nat Genet 2012; 44: 1277–81.
Conrad DF, Pinto D, Redon R, et al. Origins and functional impact of copy number variation in the human genome. Nature 2010; 464: 704–12.
Kong A, Frigge ML, Masson G, et al. Rate of de novo mutations and the importance of father’s age to disease risk. Nature 2012; 488: 471–5.
MacArthur DG, Balasubramanian S, Frankish A, et al. A systematic survey of loss-of-function variants in human proteincoding genes. Science 2012; 335: 823–8.
Xue Y, Chen Y, Ayub Q, et al. Deleterious- and disease-allele prevalence in healthy individuals: insights from current predictions, mutation databases, and population-scale resequencing. Am J Hum Genet 2012; 91: 1022–32.
主题-临床基因组学数据分析实战
文献速递
工具详解
VEP遗传变异注释及筛选-1
基本概念
遗传咨询
热点话题
知识卡
技能卡
公开课
人类外显子组/基因组VCF文件过滤
主题-单菌基因组数据分析
文献速递
近2个月发表的1篇细菌基因组、1篇病毒基因组文献
工具详解
更新2 | 合并多个NCBI-Bioproject的Metadata
更新1 | 合并多个NCBI-Bioproject的Metadata
如何合并多个NCBI-Bioproject的Metadata?
ape (二) 系统发育和进化分析及Face to Face 树
R/Rtools/RStudio和基因组流行病学R包(phybreak/BORIS)的安装
颜值神器Microreact-菌株进化树可视化、地理分布与时间轴
从核心基因组到进化树溯祖:MEGA+BEAST+FigTree简单组合使用
基本概念
知识卡
技能卡
其它主题/话题
文献速递
工具详解
知识卡
技能卡
学术生态
政策论坛
品牌故事
2025年5月 | 家系、肿瘤临床基因组/外显子组数据分析实战
唯一报名通道:http://www.ehbio.com/Training/