{转载}+{实践}hg37转hg38

原文:http://blog.sina.com.cn/s/blog_6a6c136d0102vy13.html

基因组定位转换:

前言:最近在整理一批数据,有一部分数据是hg19的定位,还有一部分是hg38的定位。最后需要将这两部分数据都统一到hg38的定位,因此需要批量将hg19的定位转换到hg38的定位。之前UCSC上有一个工具——hgLiftOver,是在线的。

#(该工具在不同装配之间实现基因组坐标和基因组注释文件转换,可以将数据粘贴至文本框或以文件方式上传。如果一对组装

#无法从下拉菜单中选择,那么两者之间的直接转换是不可用的。然而,序列转换是可以实现的。例如:Mouse,May. 2004 to #Mouse,Feb.2006,之后由Mouse,Feb.2006 to Mouse,July. 2007,从而实现mm5至mm9的转换。)

# minimum ratio of bases that must remap:  0.95

# BED 4 to BED 6 Options:

#allow multiple output regions: Minimum hit size in query:        Minimum chain size in target:

# BED 12 Options:

今天发现了一个NCBI的工具,是一个perl脚本,可以在本地运行(当然还是要联网的)。根据使用说明,该工具一次能转换25万条数据,最多同时运行四个程序,已经够用了。。。

​工具下载地址:remap_api.pl (ftp://ftp.ncbi.nlm.nih.gov/pub/remap/)

使用说明:​docs

示例

​1. 准备gtf格式文件:仅包含一个转录本的三个外显子的定位,lnc-MOCS1-4:1,将该文件保存为"test_hg19_to_hg38.gtf"。

chr6lncipedia.orgexon4042006240420473.-.gene_id lnc-MOCS1-4 ; transcript_id lnc-MOCS1-4:1 ; transcript_alias_1 ucscGeneNc_uc003opf_1 ;

chr6lncipedia.orgexon4042172840421869.-.gene_id lnc-MOCS1-4 ; transcript_id lnc-MOCS1-4:1 ; transcript_alias_1 ucscGeneNc_uc003opf_1 ;

chr6lncipedia.orgexon4042915640431723.-.gene_id lnc-MOCS1-4 ; transcript_id lnc-MOCS1-4:1 ; transcript_alias_1 ucscGeneNc_uc003opf_1 ;

​2. 在cmd运行下面的语句:

​E:\rd\012_lncRNA\db_2014-11update\LNCipedia>perl ./remap_api.pl --mode asm-asm --from GCF_000001405.17 --dest GCF_000001405.26 --annotation test_hg19_to_hg38.gtf --annot_out my_annotes.GRCh38.gtf --report_out my_annotes_NCBI37_GRCh38.tsv2 --gbench_out my_annotes_GRCh38.gbp2

说明:

GCF_000001405.17表示GRCh37.p5这一版本的基因组装配号,也就是hg19;

GCF_000001405.26表示GRCh38这一版本的基因组装配号,也就是hg38;

​--annotation 输入文件;

​--annot_out 输出文件。

​3. 运行完后显示如下:

 运行结束后

​ 4. 结果文件如下:

##assembly name=GRCh38

##assembly accession=GCF_000001405.26

#gtf-version 2.2

​chr6lncipedia.orggene4045232340463984.-.gene_id "lnc-MOCS1-4"; transcript_alias_1 "ucscGeneNc_uc003opf_1"; 

chr6lncipedia.orgexon4046141740463984.-.gene_id "lnc-MOCS1-4"; transcript_id "lnc-MOCS1-4:1"; transcript_alias_1 "ucscGeneNc_uc003opf_1"; exon_number "1"; 

chr6lncipedia.orgexon4045398940454130.-.gene_id "lnc-MOCS1-4"; transcript_id "lnc-MOCS1-4:1"; transcript_alias_1 "ucscGeneNc_uc003opf_1"; exon_number "2"; 

chr6lncipedia.orgexon4045232340452734.-.gene_id "lnc-MOCS1-4"; transcript_id "lnc-MOCS1-4:1"; transcript_alias_1 "ucscGeneNc_uc003opf_1"; exon_number "3"; 

​5. 验证:

根据lnc-MOCS1-4:1的序列用blat进行验证link,与结果是一致的。

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值