国际千人基因组计划数据库怎么用起来?

从公共数据库中下载基因组或外显子组数据,一般需注意以下几项:

1. 使用权限

2. 物种及参考基因组版本

3. 数据来源及引用:GEO、千人基因组计划等

4. 表型:种族、健康状况、性别、年龄和家系信息

5. 数据类型:遗传变异、体细胞变异;SNV、InDel或SNV;基因芯片或测序(测序仪、单双端及读长)

6. 文件类型:fastq、bam、vcf或gvcf

国际千人基因组计划

项目起始。人类基因组计划耗费10多年后在2003年绘出人类的完整基因组图谱。作为某种延续,也得益于测序通量的提高,国际千人基因组计划(The 1000 Genomes Project, 1000G/1KGP)从2008年启动,到2012年即获得了超过1000人的基因组数据,是科学界首次实现千人规模以上的基因组对比分析(2012年)。

1000G建立的人类遗传变异资源由国际基因组样本资源(The International Genome Sample Resource, IGSR)维护和共享。IGSR官网:

bce2b3305ea65409081bfb7cf11c6e23.png

http://www.internationalgenome.org/

项目规划。1000G旨在绘制当时(2012年)最为详尽、最有医学应用价值的人类基因组遗传多态性图谱。其后数据不断扩充,分析结果不断更新和迭代。目前已经有超过2500个人的基因组。2500个人的全部基因组可产生50TB(5万GB)的数据量,包含8万亿个DNA碱基对。

参与单位。华大基因是1000G的主要发起单位之一,承担了非洲人群和400个黄种人的全基因组测序。其它单位有英国桑格研究所和美国国立人类基因组研究所等。

人群分布。每个亚群一般包含几十到一百多个健康人。例如:尼日利亚伊巴丹区域的约鲁巴人;肯尼亚Webuye的Luhya人和Kinyawa的Maasai人;居住于美国西南部的非洲人后裔;居住于东京的日本人;居住于北京的中国人;居住于丹佛的中国人;意大利的Toscani居民;美国犹他州的北欧和西欧人后裔;美国休斯顿的Gujarati印第安人;美国洛杉矶的墨西哥人后裔。项目后期的人群多样性有大幅增加。

f68ab0a1250b26a8999a02668230b0f3.png

6d3e81801189e509ad751a236b74e247.png

1000G数据库的应用

任何两个人在基因水平上99%是一样的,小部分的基因组序列因人而异。每个看起来很健康的人其实都携有数百个罕见的基因变异,其中有些基因变异已证实与某些疾病风险有关。这些基因变异究竟在什么情况下才会实质性地增加患病风险,目前不得而知(聊生信:我们会关注相关的研究与应用进展)。

发现罕见的基因变异1000G可以帮助发现一些携带者占总人口比例不到1%的基因变异。这些罕见基因变异或许与疾病有关,例如可能增加心脏病或癌症的患病风险。对基因变异进行研究有助于开发预防、治疗相关疾病的方法。

作为人群对照。可以帮助研究者不再泛泛地找一些人的基因组(几个或几十个)用于对比,而是直接调阅他们长期生活区域的人群基因组数据,开展更加有针对性的比较。

应用汇总发现疾病发病机理、疾病的易感性、对药物和环境因素的反应性;常见疾病的诊断、个性化预测、预防和治疗;在大的范围内定位人群突变基因、帮助发现人类遗传疾病的相关基因、鉴定特定遗传病人群中的罕见致病基因、更精确地定位已发现的遗传风险因素、挖掘出更多未知的致病遗传因素;药物基因组学、人类群体遗传学、人类进化史。

样本列表的选择和下载

1000G包含的个体主要是来自不同人群的(自我声称)健康的样本(people who declared themselves to be healthy),可方便地下载到原始数据。但作为对照时需要注意:只有少部分样本进行了深度测序,大部分数据都是低深度测序。

主要数据组成

Pilot:    试点,比对到NCBI36

Phase1:约1000例,低深度和外显子数据,GRCh37

Phase2:约1700例,分析方法有更新

Phase3:约3000例,GRCh37,2504例的样本信息公开

1000 Genomes on GRCh38:约2700例样本

GRCH38的不同版本(GRCH38.p1, GRCH38.p2等)是对GRCH38的修补(patch),坐标系不会改变。

数据入口(data portal)

https://www.internationalgenome.org/data-portal/sample

先选择测序技术:

3fb3cb17adb5913e0be97ed447dee64d.png

另有全基因组、小RNA、Nanopore、PacBio和单细胞测序,及基因型芯片数据

再选择人群:

91d4d04f7739fcdfd47a93430ee52204.png

最后选择数据集合:

8bd1d9de56001f73782c1f9820ffa3ea.png

先选择了外显子组(Exome);人群:CHB(北京,n=103);CHS(南方汉族人群,n=113);数据集合:30x on GRCh38。最终有216个样本符合。

点击Download the list下载得到样本名称:

83364fc29ef4c0c21ad9698634db4e8d.png

需要根据这些样本列表从1000G数据库下载感兴趣的各类变异文件,我们后续的推文再介绍。

撰写:宋红卫

校对:宋红卫

252c74811f7ab3ad0aeb0921caa79b91.png

更多人类遗传学知识、文献和分析技术

请关注和星标聊生信


往期精品(点击图片直达文字对应教程)

3160f8bc7022e9b355cfb38253dc86f8.png

cf1ea79b7f8a95cfccad2b354229f100.png

b7174cf3a9beeb81e985eee5fc8f0e7c.png

a10cf0df8af1ade864c66751dc730d67.png

062a91a714e94c55dfafef56931f5eb2.png

9239eff2633291e45cb2901539634fa3.png

9427bb0ae8af73213f40de9bd23b3a35.png

3e236505d6bbca93dc93e898e3e0a14a.png

6c5c9950aa59b7d841d972cae7c483a8.png

556e00a5869ec5cfdc7644111ef5edec.png

d22960da5be665e6c2409aee3376249a.png

11f03c411ba709d1b2d58ff6d03dbf69.png

260c39689b48e1d40834b6816c6bbeb7.png

e543c805f8388d25633ad756cf6f9570.png

ed8aa903c17be02d2ccd3d38998da6d7.png

02e38ccd862a9677e1cb0d2b7269674d.png

8a95acd1b17f31f8c4f4071121745346.png

699ad8806212420d1dc4ff72d392674e.png

168c71ea4577d213723dd5fe3a79d31a.png

8a83c63e979fadd9fd6bc3664fa837ee.png

12021cb9c79d1ac910fa02b6d7af59e1.png

16e7cd04b71017e39c78f84e671f5a9d.png

f8f5a732b8abd1dc16d5baae36e684da.png

3e893f8ed7410b1614bdf778fa632ab1.png

f5d9736d0b4d31f810996b620e863a20.png

fde756d642d1cd3f9a6c5e13a983c266.png

d2ba93269b20f97b1fd3262f1e7a151b.png

274b7e5e9d625ff1e83dbdef12168bac.png

机器学习

后台回复“生信宝典福利第一波”或点击阅读原文获取教程合集

dc795cf922dcb2ed91351d0d9f137f96.png

fee132c6efd339af2c90e572c4a12f17.png

ef452da1ff03a76dff060c4749fd1b43.png

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值