利用linux中sed给染色体编号加前缀chr

在做生信分析的时候,很多情况下我个人倾向于从ENSEMBL下载基因组,但是这个数据库的染色体编号为数字,而一些f分析软件会要求chr前缀。这里演示下如何进行给gtf文件和基因组添加chr前缀。

$ ll Homo_sapiens.GRCh38.* |cut -d ' ' -f 5-
842M Apr 22  2023 Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz
 52M Apr 24  2023 Homo_sapiens.GRCh38.110.gtf.gz

对于gtf文件

zcat Homo_sapiens.GRCh38.110.gtf.gz |sed '/^#/!s/^/chr/g' > Homo_sapiens.GRCh38.110.gtf

其中/^#/!/^#/部分表示匹配,!表示非。

查看gtf染色体前缀

$ cat Homo_sapiens.GRCh38.110.gtf |grep -v '^#' |cut -f 1 |uniq |head -6
chr1
chr2
chr3
chr4
chr5
chr6

对于基因组文件

$ zcat  Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz |sed 's/^>/>chr/g' > Homo_sapiens.GRCh38.dna.primary_assembly.fa

查看基因组染色体前缀

$ cat Homo_sapiens.GRCh38.dna.primary_assembly.fa |grep '>' |head -6
>chr1 dna:chromosome chromosome:GRCh38:1:1:248956422:1 REF
>chr10 dna:chromosome chromosome:GRCh38:10:1:133797422:1 REF
>chr11 dna:chromosome chromosome:GRCh38:11:1:135086622:1 REF
>chr12 dna:chromosome chromosome:GRCh38:12:1:133275309:1 REF
>chr13 dna:chromosome chromosome:GRCh38:13:1:114364328:1 REF
>chr14 dna:chromosome chromosome:GRCh38:14:1:107043718:1 REF
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值