python解析gff文件中的转录本

最新推荐文章于 2024-07-11 10:31:53 发布

爱笑的小牙

最新推荐文章于 2024-07-11 10:31:53 发布

阅读量6.5k

点赞数 2

分类专栏： python

本文链接：https://blog.csdn.net/Cassiel60/article/details/90600823

版权

本文介绍了如何使用Python解析GFF文件，重点是理解文件格式和特征类型，如gene、exon和transcript。通过字典统计每个转录本长度，并利用heapq库找出每个基因的最长转录本。解析过程中关注 Dbxref 键值以匹配基因与转录本。

摘要由CSDN通过智能技术生成

1.下载基因组注释文件，选择对应的版本： ftp://ftp.ncbi.nlm.nih.gov/genomes/Homo_sapiens/ARCHIVE/BUILD.37.3/GFF/

2.GTF 为General Transfer Format ，熟悉格式 http://www.huoyunjn.com/wuliuxinwen/2/33709819.htm。

第三列feature - 后面start和end之间区域代表的特征，如果此区域是基因，则此处为gene，如果是外显子，则为exon，如果是转录本，则为transcript，如果是非编码RNA则为lncRNA，如果是重复序列，则为TE，等等，主要表明这一块区域的特征。

3.每一个transcript对应的exon，所有长度加起来就是这个转录本的长度。与这个transcript后面的两列相减是有差别的。

4.用python 字典来统计每个转录本的长度。

import pandas as pd
import pdb
df = pd.read_table(r'C:\Users\guosheng\Desktop\out.gff',sep = '\t',header= None)
out=open('./out.txt','a')
df =

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

爱笑的小牙

关注关注

2
点赞
踩
18

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

使用gsds绘制基因结构图_从gff文件当中提取对应转录本ID的基因结构信息用于GSDS绘制结构图脚本更新...

weixin_39788960的博客

12-21

744

脚本名称：get_gene_exon_from_gff.pl用法：perl ../script/get_gene_exon_from_gff.pl -in1 WRKY_domain_new_out_emoved_redundant.txt -in2 Arabidopsis_thaliana.TAIR10.31.gff3 -out gene_exon_info.gff输出结果(部分)：脚本源代码：u...

gff文件_pyhton读写数据文件

weixin_36464343的博客

12-30

614

1、打开文件获取文件对象2、操作文件3、关闭文件fr = open("test.txt","r") #打开文件ff=fr.read()#读取文件所有内容(不建议使用，如果文件内容巨大，内存会爆)print(ff)文件类型r#只读，默认模式打开数据文件w#只写，不可读，若文件不存在则创建，若存在，则删除内容，写入新内容a #只追加，不可读，若文件不存在则创建，存在则追...

参与评论您还未登录，请先登录后发表或查看评论

perl脚本根据gff3文件的提取CDS最长的转录本

Alter_X的博客

12-05

1168

perl脚本根据Coge的gff3文件提取CDS最长的转录本

如何快速从基因组中提取基因、转录本、蛋白、启动子、非编码序列？

最新发布

悟道西方

07-11

389

这篇文章有读者留言想要提取外显子，内含子，启动子，基因体，非编码区，编码区，TSS上游1500,TSS下游500的序列。下面我们就来示范如何提取这些序列。提到了如何下载对应的基因组序列和基因注释文件。假如我们已经拿到了基因组序列文件GRCh38.fa和基因注释文件GRCh38.gtf，也可从文后链接获取。

python组件式开发_[转]页游开发中的 Python 组件与模式Presentation Transcript

weixin_39712724的博客

12-11

103

1. 页游开发中的 Python 组件与模式赖勇浩( http://laiyonghao.com ) 2012-10-21 上海2. 去年我来过……3. 回顾……• 幻灯： http://www.slideshare.net/laiyonghao/py thon-webgame-10452102• 录像(上海 45 分钟版)： http://e.gensee.com/v_3df867_14• 录...

[转]页游开发中的 Python 组件与模式Presentation Transcript

08-09

198

转: 页游开发中的 Python 组件与模式Presentation Transcript 1. 页游开发中的 Python 组件与模式赖勇浩（ http://laiyonghao.com ） 2012-10-21 上海 2. 去年我来过…… 3. 回顾……• 幻灯： http://www.slideshare.net/laiyonghao/py thon-webgame-1...

用 Python 从 GFF3 格式文件中查找注释信息

Python中文社区

11-04

4120

作者：SunCOOL ，写python的农学生。什么是GFF3格式文件GFF全称为general feature format，3表示是第三个版本，这种格式主要是用来注释基因组，由tab...

PyPI 官网下载 | python_gff-0.1.3-py3-none-any.whl

02-07

`python_gff`库为Python开发者提供了一个方便的接口，以便解析、操作和生成GFF格式的文件。其版本0.1.3表明这是该库的一个较早版本，可能包含了基本的读取、写入和查询功能。`py3-none-any`表示这个轮子文件适用于...

Lecture-GFF:读取.gff文件，目前为NCBI

04-06

总结来说，这个“Lecture-GFF”主题涵盖了使用Python解析GFF文件，特别是NCBI提供的数据，这对于生物信息学分析，特别是基因组特征的提取和分析至关重要。通过学习和实践，你可以熟练掌握处理这种类型数据的技能，...

Python GFF library-开源

04-28

GFF文件是生物信息学领域常用的一种格式，用于存储基因组上的各种特征，如基因、转录本、外显子等。这个Python库的目的是提供一个全面的框架，使得研究人员和开发者能够方便地读取、解析、操作和生成GFF数据。首先...

有参转录组组装、注释及转录本提取

wuweifeng710的博客

06-25

785

关于转录组分析当下已极为常见，但因其常见，故属于生信入门必掌握之技能。小编从万千信息挖呀挖呀挖，整理并验证此流程之可信。代码注释有不懂的推荐使用。

RNA-seq：最长转录本提取

冷冻工厂

10-30

1981

导读本文将介绍为什么要提取最长转录本，以及如何从 fasta和gff3文件中提取最长转录本。 1. Why 基因结构由于可变剪切的存在，通常一个基因可以转录为多个转录本。但是如果将多个转录本同时进行分析，那么分析会因此受到影响。所以，目前的解决办法是，选取一个最具代表性的转录本（最长转录本）来进行分析。 2. 获取方式从序列文件中（FASTA）提取从基因结构注释信息文件（GFF）中提取 3. 用法安装GetTransTool[1] pip install GetTransTo

python 文件格式转换_在python中肿么将gtf格式的文件转换成gff格式的?

weixin_39608526的博客

11-23

369

1.python 二进制文件的读写只讨论二进制文件的读写。以二进制的形式打开文件with open(filename , 'wb') as fd :#do with fdfd.write(strobject)#二进制strobject写入文件fd.read(byte_len)#读取byte_len字节数据wb:表示以二进制写的方式打开文件rb :表示以二进制读的方式打开文件2.关于进制的转换需要使...

根据GFF3文件统计外显子大小和数量以及内含子大小

热门推荐

xxxxx

01-17

1万+

根据GFF3文件统计外显子大小和数量以及内含子大小#!/usr/bin/env python # -*- coding: utf-8 -*- __author__ = "Sheng-Wei Ma" with open('TGACv1.cdna.gff3', 'r') as f: for line in f: lin = line.strip().split('\t')

gffread安装与使用-gffread-0.12.7（bioinfomatics tools-014）

weixin_44874487的博客

03-21

3287

GFF3（General Feature Format version 3）和GTF（Gene Transfer Format）版本2，通常被称为GTF2，是基因组学中用于描述基因和其它特征的文件格式。这两种格式都用于存储有关基因组注释的信息，但它们在结构和用途上有所不同。

利用Python解决生物问题-批量获取最长转录本

qq_44520665的博客

07-12

1936

利用python有效过滤序列，生成仅含有最长转录本的文件

Linux练习-gff

Nolan777的博客

03-16

647

Python 读取gff文件

04-23

Python可以使用多种方式读取gff文件，其中一种常用的方法是使用Biopython库。Biopython是一个专门用于生物信息学的Python库，提供了许多处理生物信息学数据的功能。要读取gff文件，首先需要安装Biopython库。可以使用以下命令在终端或命令提示符中安装Biopython： ``` pip install biopython ``` 安装完成后，可以使用以下代码读取gff文件： ```python from Bio import SeqIO # 指定gff文件路径 gff_file = "path/to/your/gff/file.gff" # 使用SeqIO模块的parse函数读取gff文件 records = SeqIO.parse(gff_file, "gff") # 遍历每个记录并打印相关信息 for record in records: print("序列ID:", record.id) print("序列长度:", len(record.seq)) print("特征数量:", len(record.features)) # 可以根据需要进一步处理特征信息 for feature in record.features: print("特征类型:", feature.type) print("特征位置:", feature.location) ``` 上述代码中，首先导入了`SeqIO`模块，然后使用`SeqIO.parse`函数读取gff文件。接下来，通过遍历`records`对象，可以获取每个记录的相关信息，如序列ID、序列长度和特征数量。如果需要进一步处理特征信息，可以遍历`record.features`列表。