基本概念 | 深度量化基因组、变异与突变速率

基因组变异是产生巨大生物多样性的主要因素,除同卵双胞胎 (Monozygotic twins, MZ)外,也是每个个体的遗传独特性。

临床遗传学家,诊断和管理由人类基因组突变引起的问题。他们的任务是鉴定致病性基因组变异,并解释其对患者及其家人的影响。

因此,人类基因组的运行知识,包括对健康个体中基因组变异规模的认识,对基因组医学的实践至关重要。

基因组

即某生物体单倍体遗传物质的总和。例如人类基因组,包括核 (Nuclear)DNA和线粒体DNA,包含~20,000个蛋白编码基因。

www.genome.gov/genetics-glossary/haploid

基因组结构

即基因组的结构、内容和组织方式,例如基因的位置和顺序。

有关大小的问题

以人类基因组为例:

• 46条染色体 — 22对常染色体和2条性染色体 (男XY,女XX)

• 3,000,000,000 (30亿)个碱基对 (bp)DNA。即每个单倍体基因组:3千兆碱基 (Gb)3,000兆碱基 (Mb)。

• 平均染色体长度为100 000 000 bp,即100 Mb (1亿),从最大的染色体250 Mb到最小的染色体50 Mb,大小变化了5倍。

• 只有约1~2%的人类基因组是编码序列 (外显子组-Exome”);编码和剪接区域的总长度估计为~35Mb。

• 人类基因组中大约有20,000个编码蛋白质的基因 (外显子组-Exome”) (视频 | 学习Linux进行GTF解析, 基因组中的趣事(二)- 最长的基因2.7 million,最短的基因只有8 nt却能编码)。

DNA的尺寸以纳米 (1根头发的直径约0.05毫米,把它纵向平均剖成5万根,每根的厚度约1纳米;即1nm=1.0×10^-6 mm)为单位进行测量。从这个角度来看,每个人体细胞有大约2米的DNA,相当于大约60亿bpDNA

在遗传性疾病中,病理学可能涉及从整条染色体非整倍性,到单个碱基对替换或缺失,以及这两个极端之间的整个谱 (见表1.3)

人基因组中,基因组变异/失衡 (Imbalance)的大小

Aneuploidy (e.g. trisomy 21) - 非整倍性 (如21三体); Microscopically 显微镜

个体中的基因组变异

人类基因组

大多数人有约410万~500万个变异 (4.1~5.0 million variants,即个体序列与参考基因组不同的位点) (Ref. 1000 Genomes Project Consortium - 1000基因组项目联盟,2015),其中约2万个在外显子组中,包括大约400个可能损害编码蛋白功能的罕见变异 (Rare variants that potentially impair the function of the encoded protein - 即可能有害的变异)。

尽管99.9%的变异由单核苷酸多态性 (SNP)和短的InDel (插入/缺失)组成,但结构变异影响更多的碱基 — 典型的基因组包含估计2100~2500个结构变异 (1,000个大的缺失、160个拷贝数变异-CNV915Alu插入、128L1插入、51SVA插入、4NUMT10个倒位-Inversion),影响2000万个碱基序列 (Ref. 1000基因组项目联盟,2015)

人类基因组中的变异

• 约有340万个SNV (单核苷酸变异),即:1,000个碱基中有1个。原文:Approximately 3 400 000 SNVs (single nucleotide variants) ~1 every 1000 bases.

• 约35万个插入/缺失 (1000基因组项目联盟,2012)。

• 1,000个大的缺失/重复 (CNV)。

• 约有100个真正的“LOF”变异 (Genuine ‘LOF’ variants; LOF - Loss of function),其中约20个基因完全失活 (MacArthur et al. 2012)。

• 以前被描述为致病的 (Disease-causing),约有50~100个变异,尽管其中许多是错误的结论 (False assertion)。

• 大约50个新发突变 (de novo mutations, DNMs),其中平均约1.3个位于外显子组。

新突变 (产生/固定)的速率

SNV突变速率

最近的文献 (Campbell et al. 2012; Kong et al. 2012)估计,人类基因组中,每世代每碱基的新突变 (New mutation)速率约为1.2×10^-8个替换 (~1.2 × 10^-8 substitutions per base per generation)。在碱基替换方面,父系胚系突变的诱变性比母系高出约4倍 (The paternal germline is ~4-fold more mutagenic than the maternal germline)。此外,Kong等人描述了随着父系而非母系年龄的增长,新碱基替换数量每年近似线性地增加2个突变。另见原文 (见文末),第6第772页 (“怀孕和生育”-父亲年龄”)

CNV变异速率

使用含4200万个探针的基因组芯片微阵列,来表征CNV的群体变异,据估计,每17名儿童中至少有一名患有新发CNV,但在许多情况下没有明显的临床后果 (Conrad等人,2010)

原文来源

临床遗传学和基因组学 - Clinical Genetics and Genomics (Oxford Desk Reference). H. Firth, 2th, 2017.

专家顾问:Matthew Hurles,英国威康基金桑格研究所 (Wellcome Trust Sanger Institute),人类遗传学主任。

参考文献

1000 Genomes Project Consortium. An integrated map of genetic variation from 1,092 human genomes. Nature 2012; 491: 56–65.

1000 Genomes Project Consortium. A global reference for human genetic variation. Nature 2015; 526: 68–74.

Campbell CD, Chong JX, Maliq M, et al. Estimating the human mutation rate using autozygosity in a founder population. Nat Genet 2012; 44: 1277–81.

Conrad DF, Pinto D, Redon R, et al. Origins and functional impact of copy number variation in the human genome. Nature 2010; 464: 704–12.

Kong A, Frigge ML, Masson G, et al. Rate of de novo mutations and the importance of father’s age to disease risk. Nature 2012; 488: 471–5.

MacArthur DG, Balasubramanian S, Frankish A, et al. A systematic survey of loss-of-function variants in human proteincoding genes. Science 2012; 335: 823–8.

Xue Y, Chen Y, Ayub Q, et al. Deleterious- and disease-allele prevalence in healthy individuals: insights from current predictions, mutation databases, and population-scale resequencing. Am J Hum Genet 2012; 91: 1022–32.

往期内容合集 (溯至2023.5.30)

主题-临床基因组学数据分析实战

文献速递

神经突生成相关基因的突变构成脑瘫发生风险(IF=38)

临床测人的基因组/外显组-文章案例

2025,医学生发文最佳"套路"/思路!

基因组测序在诊断罕见疾病中的应用

工具详解

VEP遗传变异注释及筛选-1

VEP遗传变异注释及筛选-2

VEP遗传变异注释及筛选-3

生信分析关键工具:基因组变异注释-SnpEff

CrossMap-转换VCF等文件的基因组坐标

ClinVar数据库更新记录

三大人群频率库合并记录

基本概念

人类遗传学生信分析核心要点

遗传咨询

应注意哪些潜在的遗传病?

热点话题

罹患遗传病、罕见病的中外名人

知识卡

在评估序列变异作为疾病病因时,需考虑的因素

技能卡

最新Pipeline获取方式

公开课

基因突变与序列变异如何筛选?

人类外显子组/基因组VCF文件过滤

主题-单菌基因组数据分析

文献速递

近2个月发表的1篇细菌基因组、1篇病毒基因组文献

鲍曼不动杆菌的全基因组测序、耐药基因、院内传播及其分子依据

PNAS | 结核分枝杆菌的适应性进化现象

工具详解

基因组圈图工具-1:Proksee简单测试

基因组圈图工具-2:Proksee引文解读

基因组圈图工具-3:Proksee解析gbk文件

QUAST | 基因组组装的质量评估

获取已知的参考基因组、草图、基因的参考序列

更新2 | 合并多个NCBI-Bioproject的Metadata

更新1 | 合并多个NCBI-Bioproject的Metadata

如何合并多个NCBI-Bioproject的Metadata?

ape (九) 基本和高级功能-几何/复合图形,自建函数

ape (八) 基本和高级功能-特定函数

ape (七) 基本和高级功能-分枝及进化树的注释

ape (六) 基本和高级功能-参数与选项

ape (五) 基本和高级功能

ape (四) 基于遗传距离的邻接树

ape (三) 树的写和读,根和外群

ape (二) 系统发育和进化分析及Face to Face 树

ape (一) 基于R的系统发育和进化分析

如何绘制面对面 (Face to face)进化树

Spoligotyping | 间隔区寡核苷酸分型程序测试

吐血研究了3、4天,R包vimes到底在干嘛?

病毒也分簇?当然

在线工具 | SNP簇、传播簇、最小生成树

pairsnp包的安装、测试-2 | 热图展示、传播簇分配

SNP距离矩阵及阈值 - pairsnp包的安装、测试

R/Rtools/RStudio和基因组流行病学R包(phybreak/BORIS)的安装

进化树可视化工具一览

颜值神器Microreact-菌株进化树可视化、地理分布与时间轴

进化树本地/在线分析工具备忘

最大似然树 | RAxML详解 (三)

最大似然树 | RAxML详解 (二)

最大似然树 | RAxML详解 (一)

进化溯祖 | BEAST相关文档解读

进化溯祖 | BEAST软件安装的1个要点

细菌基因组 | BEAST简介及Linux版安装

从核心基因组到进化树溯祖:MEGA+BEAST+FigTree简单组合使用

浅谈BactDating进化时间分析的使用原则

进化树日期的测定与推断-BactDating

基本概念

溯祖理论-1

溯祖理论-2

溯祖理论-3

溯祖及溯源方法详译

贝叶斯进化树原理简介

马尔可夫链-蒙特卡罗 (MCMC)理论

溯祖及溯源方法-2:相关数理统计

描述进化树的若干基本概念

知识卡

Proksee细菌基因组圈图,有哪些注释工具?

技能卡

5分钟绘制单菌基因组圈图,Proksee!

PubMed文献关键词搜索

其它主题/话题

文献速递

Nature最新文章目录 (2025.3)

Nature最新文章目录 (2025.4)

Cell最新文章目录 (2025.3~4)

Science最新文章目录 (2025.3~4)

工具详解

Windows11安装最新版Ubuntu子系统-2025

知识卡

单细胞测序技术简介

技能卡

Xshell - 永远能用

Rstudio-Server一键回到家目录

已开通留言功能,欢迎广大粉丝朋友留言、沟通!

如何提升生信笔记本电脑的性能?

服务器极限压力测试-STAR索引

微信新功能:新订阅号界面,AI输入法,文章划重点、转发!

学术生态

课题组大不大,决定了你将来的学术水平?

Science软文 | 我的危机博士生涯

政策论坛

中国科学发展的国家优先导向

品牌故事

与易生信携手8年,我的生信路

不担心盗版,也不希望被盗版

2025年5月 | 家系、肿瘤临床基因组/外显子组数据分析实战

唯一报名通道:http://www.ehbio.com/Training/

高颜值免费 SCI 在线绘图(点击图片直达)


最全植物基因组数据库IMP (点击图片直达)

往期精品(点击图片直达文字对应教程)

机器学习

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值