提取基因结构信息linux,求助:哪位高手知道如何通过基因编号提取序列

求助:哪位高手知道如何通过基因编号提取序列

发布时间:2009-05-24 03:12:53来源:红联作者:huangqp

[i=s] 本帖最后由 huangqp 于 2009-5-24 03:18 编辑 [/i]

哪位知道如何利用基因号提取全序列

一个文件file1含有基因号,如下,

AT5G54820.1

AT5G32220.1

AT5G20470.1

下面是一个database文件file2,想从中通过上面文件所包含的基因号从下面的文件中提取相应的序列。

>AT5G54820.1 | Symbols: | scws protein | chr1:19049283-19050416 FORWARD

QRDLAKDRPNASGLQEVLSHFKCLDIDNDPSCI

>AT5G20470.1 | Symbols: | ffdffs protein | chr1:19049283-19050416 FORWARD

AINHLCICQANQASSVAWGVHAFSRKTQPLDN

>AT5G42150.1 | Symbols: | dwefs protein | chr1:19049283-19050416 FORWARD

CCIADYEKGDKITCKFHDCIAENKCPMFHSSVR

>AT4G02570.1 | Symbols: | fghhfs protein | chr1:19049283-19050416 FORWARD

CSICLQSLVSSSKTRMSHHNGLVELNRCPMFH

>AT5G32220.1 | Symbols: | shrb protein | chr1:19049283-19050416 FORWARD

CSICMENLNSESSSENIISCLHLFHQSCIFESESS

以第一条序列为例,解释一下这里所谓的一条序列,即包括:注释+序列

注释:

>AT5G54820.1 | Symbols: | scws protein | chr1:19049283-19050416 FORWARD

序列:

QRDLAKDRPNASGLQEVLSHFKCLDIDNDPSCI

简言之,现在想通过file1所包含的AT5G54820.1,从file2中提出其对应的全序列,即:

>AT5G54820.1 | Symbols: | scws protein | chr1:19049283-19050416 FORWARD

QRDLAKDRPNASGLQEVLSHFKCLDIDNDPSCI

当然所有file1中的基因号在file2中都有!

希望通过常用命令完成,而不是用写程序的方式!请高手指点,多谢!!!!!!!!!

参与评论 您还未登录,请先 登录 后发表或查看评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
©️2022 CSDN 皮肤主题:1024 设计师:我叫白小胖 返回首页
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、C币套餐、付费专栏及课程。

余额充值