提取基因结构信息linux,求助:哪位高手知道如何通过基因编号提取序列

求助:哪位高手知道如何通过基因编号提取序列

发布时间:2009-05-24 03:12:53来源:红联作者:huangqp

[i=s] 本帖最后由 huangqp 于 2009-5-24 03:18 编辑 [/i]

哪位知道如何利用基因号提取全序列

一个文件file1含有基因号,如下,

AT5G54820.1

AT5G32220.1

AT5G20470.1

下面是一个database文件file2,想从中通过上面文件所包含的基因号从下面的文件中提取相应的序列。

>AT5G54820.1 | Symbols: | scws protein | chr1:19049283-19050416 FORWARD

QRDLAKDRPNASGLQEVLSHFKCLDIDNDPSCI

>AT5G20470.1 | Symbols: | ffdffs protein | chr1:19049283-19050416 FORWARD

AINHLCICQANQASSVAWGVHAFSRKTQPLDN

>AT5G42150.1 | Symbols: | dwefs protein | chr1:19049283-19050416 FORWARD

CCIADYEKGDKITCKFHDCIAENKCPMFHSSVR

>AT4G02570.1 | Symbols: | fghhfs protein | chr1:19049283-19050416 FORWARD

CSICLQSLVSSSKTRMSHHNGLVELNRCPMFH

>AT5G32220.1 | Symbols: | shrb protein | chr1:19049283-19050416 FORWARD

CSICMENLNSESSSENIISCLHLFHQSCIFESESS

以第一条序列为例,解释一下这里所谓的一条序列,即包括:注释+序列

注释:

>AT5G54820.1 | Symbols: | scws protein | chr1:19049283-19050416 FORWARD

序列:

QRDLAKDRPNASGLQEVLSHFKCLDIDNDPSCI

简言之,现在想通过file1所包含的AT5G54820.1,从file2中提出其对应的全序列,即:

>AT5G54820.1 | Symbols: | scws protein | chr1:19049283-19050416 FORWARD

QRDLAKDRPNASGLQEVLSHFKCLDIDNDPSCI

当然所有file1中的基因号在file2中都有!

希望通过常用命令完成,而不是用写程序的方式!请高手指点,多谢!!!!!!!!!

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值