cath数据库fasta备注_从IMGT数据库下载免疫组库相关fasta序列

本文介绍了如何从IMGT数据库下载人类IGH、IGD和IGHJ的fasta序列,并提供了简单的序列统计。通过多序列比对,展示了IGHJ家族之间的相似性和差异,探讨了序列可视化的可能性。
摘要由CSDN通过智能技术生成

BCR有IGH,IGK,IGL这3类,而TCR有TRA,TRB,TRD,TRG,它们各自都有V,D(可选),J,C基因,这么多基因的序列都是可以直接下载的。都是在:http://www.imgt.org/vquest/refseqh.html#VQUEST首先是多个物种的BCR的IGH,IGK,IGL这3类的V,D(可选),J基因:

a5250e3553c141a56e6cbbc503b2987a.png

然后是多个物种的TCR的TRA,TRB,TRD,TRG的V,D(可选),J基因:

8788393968e1cec329b546e1f0191cfc.png

人类IGH的fasta文件下载

首先IGH是BCR的一种,有V,D,J基因,其fasta文件如下:

mkdir ~/biosoft/igblast/imgt

cd ~/biosoft/igblast/imgt

wget http://www.imgt.org/download/V-QUEST/IMGT_V-QUEST_reference_directory/Homo_sapiens/IG/IGHV.fasta

wget http://www.imgt.org/download/V-QUEST/IMGT_V-QUEST_reference_directory/Homo_sapiens/IG/IGHD.fasta

wget http://www.imgt.org/download/V-QUEST/IMGT_V-QUEST_reference_directory/Homo_sapiens/IG/IGHJ.fasta

简单统计是:

IGHD.fasta:44,37

IGHJ.fasta:13,6

IGHV.fasta:402,106

6126f4241dfa3ebeb500eea1311c4cd4.png

具体看

>J00256|IGHJ1*01|Homo sapiens|F|J-REGION|723..774|52 nt|1| | | | |52+0=52| | |

>J00256|IGHJ2*01|Homo sapiens|F|J-REGION|932..984|53 nt|2| | | | |53+0=53| | |

>J00256|IGHJ3*01|Homo sapiens|F|J-REGION|1537..1586|50 nt|2| | | | |50+0=50| | |

>X86355|IGHJ3*02|Homo sapiens|F|J-REGION|1107..1156|50 nt|2| | | | |50+0=50| | |

>J00256|IGHJ4*01|Homo sapiens|F|J-REGION|1912..1959|48 nt|3| | | | |48+0=48| | |

>X86355|IGHJ4*02|Homo sapiens|F|J-REGION|1480..1527|48 nt|3| | | | |48+0=48| | |

>M25625|IGHJ4*03|Homo sapiens|F|J-REGION|446..493|48 nt|3| | | | |48+0=48| | |

>J00256|IGHJ5*01|Homo sapiens|F|J-REGION|2354..2404|51 nt|3| | | | |51+0=51| | |

>X86355|IGHJ5*02|Homo sapiens|F|J-REGION|1878..1928|51 nt|3| | | | |51+0=51| | |

>J00256|IGHJ6*01|Homo sapiens|F|J-REGION|2947..3009|63 nt|3| | | | |63+0=63| | |

>X86355|IGHJ6*02|Homo sapiens|F|J-REGION|2482..2543|62 nt|3| | | | |62+0=62|partial in 3'| |

>X86356|IGHJ6*03|Homo sapiens|F|J-REGION|2482..2543|62 nt|3| | | | |62+0=62|partial in 3'| |

>AJ879487|IGHJ6*04|Homo sapiens|F|J-REGION|39..101|63 nt|3| | | | |63+0=63| | |

进行多序列比对,查看它们的远近关系

比如看IGHV,就是123-129个基因,可以分成3大类和7小类:

clan I: IGHV1, IGHV5 and IGHV7 subgroup genes

clan II: IGHV2, IGHV4 and IGHV6 subgroup genes

clan III: IGHV3 subgroup genes

这些基因都拥挤在狭小的染色体片段上面:All the IGHV genes are in a fully sequenced contig which comprises the following accession numbers:

AB019437 (200000 bp): IGHV(III)-82 to IGHV(II)-60-1

AB019438 (200000 bp): IGHV3-60 to IGHV4(II)-40-1

AB019439 (200000 bp): IGHV7-40 to IGHV3-21

AB019440 (200000 bp): IGHV(II)-20-1 to IGHV2-5

AB019441 (157090 bp): IGHV4-4 to IGHV6-1

因为IGHV序列太多,比对起来耗费时间,我这里就举例IGHJ,如下:

3ce1547780f52236e2e8468dfab71735.png

可以看到,它们不同序列的差异很微弱,都集中在开头的几个碱基,其中IGHJ6跟另外的5类差异最大。大家觉得该如何可视化上面的结果呢?

library(Biostrings)

library(msa)

library(ggtree)

library(seqinr)

mySequences

mySequences

myAlignment

比如我这里可以使用msaR包:

library(msaR)

msaR(AAStringSet(as.character(myAlignment)))

看起来还挺有感觉的哦!

45df6ae5a7261de2e53d96b1b9558324.png

比如ggtree可以读取多种格式(包括newick,nexus,NHX,jplace和phylip)的系统发育树,并结合不同类型的相关数据进行注释分析。

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值