用哪个版本的基因组和注释文件好?| 亲测

What Ensembl genome version should I use for alignments? (e.g. toplevel.fa vs. primary_assembly.fa)

这是一个很细节也很实际的问题,到底用哪个版本?

参考:

What Ensembl genome version should I use for alignments? (e.g. toplevel.fa vs. primary_assembly.fa)

Results differ when using different ensembl versions

 

First part options:

  • dna_sm - Repeats soft-masked (converts repeat nucleotides to lowercase)
  • dna_rm - Repeats masked (converts repeats to to N's)
  • dna - No masking

Second part options:

  • .toplevel - Includes haplotype information (not sure how aligners deal with this)

  • .primary_assembly - Single reference base per position

 

大部分都推荐使用soft-mask版本的,也就是没有把repeat替换为N。

 

下载hg19基因组:http://hgdownload.cse.ucsc.edu/goldenPath/hg19/bigZips/

参考:基因组各种版本对应关系

从genecode下载hg19注释文件:ftp://ftp.sanger.ac.uk/pub/gencode/Gencode_human/release_27/

UCSC也可以下载,不过只能从网页导出。http://genome.ucsc.edu/cgi-bin/hgTables

注:genecode貌似出了问题,https://www.gencodegenes.org/releases/26lift37.html,里面ebi的链接无法下载了。

参考:http://www.biotrainee.com/thread-2035-1-1.html

 

基因组不是越新越好的,看看最新的CNS,里面很少有用最新版本的基因组,为什么?因为注释没跟上,你做出来的东西可能和别人对不上。

 

亲测

用不同版本的基因组效果会怎么样?

我做了转录组的测试,用的hg19和GRCh38

结论如下:

1. reads比对到基因组上的情况大致相同,基本没有差别;

2. 用不同的注释文件,基因表达的结果差距非常大。同样都是用featureCounts

GRCh38的结果:

Assigned        306852
Unassigned_Unmapped     0
Unassigned_MappingQuality       0
Unassigned_Chimera      0
Unassigned_FragmentLength       0
Unassigned_Duplicate    0
Unassigned_MultiMapping 36280
Unassigned_Secondary    0
Unassigned_Nonjunction  0
Unassigned_NoFeatures   56950
Unassigned_Overlapping_Length   0
Unassigned_Ambiguity    19771
//================================= Running ==================================\\
||                                                                            ||
|| Load annotation file /home/lizhixin/databases/ensembl/release91/Homo_s ... ||
||    Features : 1199851                                                      ||
||    Meta-features : 58302                                                   ||
||    Chromosomes/contigs : 47                                                ||
||                                                                            ||
|| Process BAM file /home/lizhixin/project/scRNA-seq/reanalyze/first_five ... ||
||    Paired-end reads are included.                                          ||
||    Assign fragments (read pairs) to features...                            ||
||                                                                            ||
||    WARNING: reads from the same pair were found not adjacent to each       ||
||             other in the input (due to read sorting by location or         ||
||             reporting of multi-mapping read pairs).                        ||
||                                                                            ||
||    Read re-ordering is performed.                                          ||
||                                                                            ||
||    Total fragments : 419853                                                ||
||    Successfully assigned fragments : 306852 (73.1%)                        ||
||    Running time : 0.05 minutes                                             ||

  

hg19的结果:

Assigned        586467
Unassigned_Unmapped     0
Unassigned_MappingQuality       0
Unassigned_Chimera      0
Unassigned_FragmentLength       0
Unassigned_Duplicate    0
Unassigned_MultiMapping 66997
Unassigned_Secondary    0
Unassigned_Nonjunction  0
Unassigned_NoFeatures   133437
Unassigned_Overlapping_Length   0
Unassigned_Ambiguity    47278
//================================= Running ==================================\\
||                                                                            ||
|| Load annotation file /home/lizhixin/databases/cellranger_ref/refdata-c ... ||
||    Features : 1130716                                                      ||
||    Meta-features : 32738                                                   ||
||    Chromosomes/contigs : 45                                                ||
||                                                                            ||
|| Process BAM file /home/lizhixin/project/scRNA-seq/reanalyze/first_five ... ||
||    Paired-end reads are included.                                          ||
||    Assign fragments (read pairs) to features...                            ||
||    Total fragments : 834179                                                ||
||    Successfully assigned fragments : 586467 (70.3%)                        ||
||    Running time : 0.05 minutes                                             ||

 

不同的注释文件千万不要乱用!!!  

  

 

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
基因组注释文件(GTF)是一种用于描述基因组上的基因、转录本和外显子等注释信息的文件格式。GTF文件通常与基因组序列文件一起使用,用于帮助研究者理解基因组的组成和功能。 GTF文件的结构很简单明了,每一行都代表一个注释区域(feature)。每行包含了一系列字段,用制表符分隔开,依次包括染色体名称、源(即生成该注释的程序或数据库)、注释区域的类型、起始位置、终止位置、分数、方向、相位和其他一些属性等信息。通过这些字段,我们可以了解到基因和转录本在染色体上的位置,并且对于非编码RNA、外显子和剪接变体等也能做到详细描述。 GTF文件的重要性在于它提供了关键的信息,可以用于多种生物信息学研究任务。例如,研究者可以利用GTF文件的基因和转录本注释信息,对已知的基因进行注释,或者对全新的基因进行预。此外,GTF文件还可以用于分析基因的发育、表达和调控过程,帮助我们理解基因组的功能。 然而,需要注意的是,GTF文件仅仅是基因组注释的一部分,它并不能提供关于表达水平、蛋白质结构和功能的直接信息。因此,在进行基因组研究时,还需要结合其他实验数据,如RNA序和质谱数据等,来进一步验证和研究基因组的功能。 总而言之,基因组注释文件(GTF)提供了基因、转录本和外显子等注释信息的描述,是生物信息学研究中不可或缺的一部分。通过分析GTF文件,我们可以加深对基因组的理解,并在基因组研究中发挥重要作用。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值