取转录本fasta最长的当作基因fasta

最新推荐文章于 2024-08-17 18:17:45 发布

浮生终有醒

最新推荐文章于 2024-08-17 18:17:45 发布

阅读量3.7k

点赞数

分类专栏：生物信息学

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/skenoy/article/details/22404871

版权

这段Perl脚本从多个转录本fasta文件中找出最长的转录本，将其作为对应基因的fasta序列。脚本首先计算每个转录本的长度，然后保存最长的转录本信息，并最终输出最长的转录本序列。

摘要由CSDN通过智能技术生成

#!/usr/bin/env perl
use warnings;
use strict;
use Bio::SeqIO;

die "perl $0 <fasta> > <outfile>\n" if(@ARGV != 1);

my @len = `fastalength $ARGV[0]`;
my %xsh = map { chomp; my($length,$name)=split /\s+/; $name=>$length } @len;

my %hash;
open FA, $ARGV[0] or die $!;
while(<FA>)
{
	chomp;
	next if($_ !~ /^>/);
	if(/gene:([^ ]+) transcript:([^ ]+)/)
	{
		if(exists $xsh{$2})
		{
			push @{$hash{$1}}, "$2 $xsh{$2}";
		}
	}
}

my %trans;
open OUT, ">longest_transcript.list" or die $!;
foreach my $g(keys %hash)
{
	my $tmp = 0;
	my $lt;
	foreach my $t(@{$hash{$g}})
	{
		my @x = split / /, $t;
		($x[1] > $tmp) ? $lt = $x[0] : next;
	}
	$trans{$lt} = 0;
	print OUT "$lt\n";
}

$/ = "\n>";
open FB, $ARGV[0] or die $!;
while(<FB>)
{
	chomp;
	s/^>//;
	my @tmp = split /\n/;
	my @t = s

最低0.47元/天解锁文章

浮生终有醒

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

浮生终有醒 CSDN认证博客专家 CSDN认证企业博客

码龄17年

72: 原创

17万+: 周排名

178万+: 总排名

33万+: 访问

: 等级

4489: 积分

175: 粉丝

23: 获赞

85: 评论

75: 收藏

私信

关注

热门文章

分类专栏

生物信息学 117篇

最新评论

Trinity组装学习
chengluman: 您好，我想请教您一个问题，如果我测了6个样本，每个样本三次重复，在使用trinity的时候，我该如何选择哪些样本来拼接呢？
ncbi的genome，gene序列转换和gb2gtf——链特异性转录组
夕佑: 后来明白用python3可解决，但是又出现了另外一个问题，将脚本中的print gtf改为print(gtf)后荧幕出现一堆错误输出，这个文明解决呀？ [code=python] SyntaxError: Missing parentheses in call to 'print'. Did you mean print(gtf)? [/code]
ncbi的genome，gene序列转换和gb2gtf——链特异性转录组
夕佑: 您好，我在使用您的这个脚本时，出现报错，请问一下这个该怎么解决，是没有封装SeqIO模块吗？ [code=plain] [yifli@sg04 software]$ cat HD.gb | /public/home/yifli/tobacco/new_toboco/gb2gtf.py HD.gtf cat: HD.gb: No such file or directory Traceback (most recent call last): File "/public/home/yifli/tobacco/new_toboco/gb2gtf.py", line 18, in <module> from Bio import SeqIO ImportError: No module named Bio [/code]
一点一点重学统计学（四）——卡方检验、方差分析、F检验
u012804784: 大佬，持续追更中.......
R WGCNA基础（1）——数据过滤
大剑蜥蜴回复 sinat_34686509: 楼主根本不鸟你的

大家在看

最新文章

目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。