BioPython读取FASTA文件保留header中空格的方法

最新推荐文章于 2023-03-14 19:36:21 发布

EmmettPeng

最新推荐文章于 2023-03-14 19:36:21 发布

阅读量910

点赞数

分类专栏：杂七杂八的Python小代码生物信息学

本文链接：https://blog.csdn.net/Emmett_Bioinfo/article/details/115330747

版权

python

生物信息学同时被 2 个专栏收录

12 篇文章 7 订阅

订阅专栏

杂七杂八的Python小代码

6 篇文章 0 订阅

订阅专栏

问题

最近开始学习使用Biopython这个工具包，非常方便地可以处理一些序列文件。最近用Bio.SeqIO模块进行读取fasta文件到字典中的时候发现一个问题，如果你的fasta文件>开头的那一行header中含有空格的话，该行内容以键存到字典里，这个header会被从第一个空格的地方截断，比如原本的文件是这样的：

>Header1 this is the sequence name

读进去之后可能就变成了

>Header1

解决办法

使用description。如：

nucl_dict = SeqIO.to_dict(SeqIO.parse(input_file,"fasta"), key_function = lambda rec: rec.description) #keep whitespace in FASTA header

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

EmmettPeng

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

使用Python脚本读取fasta文件

qq_53666171的博客

09-13

2009

使用Python脚本读取fasta文件

linux下awk读取文件,Linux中awk的使用方法详解

weixin_29000891的博客

04-29

2229

在学习awk之前我们应该都学过sed,grep,tr,cut等等命令，这些命令都是为了方便我们对Linux下文本和数据的处理，但是我们会发现很多时候这些命令并不能一下子就完全解决我们的需求，很多时候我们都需要使用管道符结合这些命令来使用，今天我就给大家介绍一个命令awk，他就能很好的解决我们对文本和数据处理的需求，使我们一条命令就解决很多问题。一、awk命令简介awk被称为文本处理三剑客之一，其名...

参与评论您还未登录，请先登录后发表或查看评论

用Python实现获取fasta的头文件

qq_39212193的博客

04-21

483

fasta_file = open('SwissProt.fasta', 'r') out_file = open('SwissProt.header', 'w') for line in fasta_file: if line[0:1] == '>': out_file.write(line) out_file.close() fasta: sp|Q664P8|TAUB_YERPS Taurine import ATP-binding protein TauB OS=Y

利用Python读取fasta文件并进行一系列操作（上）

yhlhhhhh的博客

06-18

8738

利用Python读取fasta文件并进行一系列操作（上）概述语言：python3.8 模块：pysam collections 可选：jupyter 整体思路：将fasta格式的基因原始数据处理为方便读写的txt格式并进行操作步骤：获取自己的fasta文件（这里我将从NCBI上下载人类的ABO基因参考序列的fasta文件为例）利用pysam模块的FastaFile函数读取fasta，之后即可获取fasta的基本信息：filename 文件名，references 染色体编号（因为这里我下

两行代码读入fasta文件

Eumenidus的博客

03-17

985

使用protfasta包快速读入fasta文件

利用Python读取fasta文件并进行一系列操作（二）

yhlhhhhh的博客

06-20

1925

利用Python读取fasta文件并进行一系列操作（二）概览：本节目标：通过上一节所输出的txt输出ABO蛋白以及ABO基因的外显子fasta文件语言： python3.8 模块：biopython ssl 可选：jupyter 整体思路：通过ncbi获取ABO基因外显子位置（爬虫），并读取txt，根据位置信息获取外显子序列，再通过外显子序列输出mRNA序列以及蛋白序列前排提示：本教程不管生物，有知识盲区自己补步骤：设置ssl，要不debug后总会有bug 从这步开始调用biopyt

Pyfastx：一个快速随机读取基因组数据的Python模块

公众号/简说基因，知乎/简宝玉

12-24

907

今天介绍一个同门师兄开发的 Python 模块：pyfastx，用于快速随机访问基因组序列文件。作品发表在生信顶刊上，必须强行安利一波。师兄任职于成都大学，专注于生物信息学研究，是真正的...

MATLAB文件读取高级技术和案例研究：探索前沿应用

![MATLAB文件读取高级技术和案例研究：探索前沿应用]...- **文本文件读取：**从定界或非定界文本文件中读取数据，例如CSV和TSV文件。 - *

R语言数据文件读写

weixin_34357267的博客

12-04

1258

R语言数据储存与读取 1 首先用getwd() 获得当前目录，用setwd("C:/data")设定当前目录 2 数据保存创建数据框d >d <- data.frame(obs = c(1, 2, 3), treat = c("A", "B", "A"), weight = c(2.3, NA, 9)) 2.1 保存为简单文本 Usagewrite.table(x,...

R语言的数据操作

01-29

除了上述文本格式的数据读取外，R还支持直接读取Excel文件，主要方法有： 1. **使用剪贴板读取Excel数据** - 可以通过将Excel数据复制到剪贴板中，然后使用`read.delim("clipboard")`读取。 2. **使用RODBC包读取...

biopython中文指南

01-04

想要利用python处理生物序列方面的数据，biopython是十分好用的

Biopython安装及fasta序列展示

ziixiaoshenwang的博客

04-30

624

Biopython 教程与手册网址：https://biopython-cn.readthedocs.io/zh_CN/latest/index.html windows安装Biopython pip install biopython 查看版本信息 import Bio print（Bio.__version__） fasta序列展示先用PyCharm打开或创建一个项目，将fasta文件下载复制到。idea文件中 1、查看下载的fasta序列是否在。idea文件内。 2、更.

biopython简介

庐州月光的博客

12-25

4276

欢迎关注”生信修炼手册”!biopython和bioperl, biojava项目类似，都是Open Bioinformatics Foundation组织的项目之一，旨在提供一个编程接...

Biopython 安装

qq_42194101的博客

03-14

2004

本节解释了如何在你的机器上安装Biopython。它的安装非常简单，不会超过5分钟。

Biopython入门

wjh_icon的博客

10-08

1446

Biopython入门

BioPython安装与入门

热门推荐

DrugAI

08-31

3万+

BioPython简介 Biopython工程是一个使用Python来开发计算分子生物学工具的国际团体。(http://www.python.org) Python是一种面向对象的、解释型的、灵活的语言，在计算机科学中日益流行。Python易学，语法明晰，并且能很容易的使用以C，C++或者FORTRAN编写的模块实现扩展。 Biopython官网(http://www.biopython.o...

Biopython 安装使用

weixin_30776273的博客

04-17

1390

Biopython 官网：https://biopython.org/ 安装 Biopython https://biopython.org/wiki/Download 可以使用 pip 进行安装，注意有时需要使用管理员权限，即管理员打开 cmd pip install biopython 验证安装是否成功 Biopython 官方教程 https://biopy...

java对象序列提取_如何使用带有awk语句的fasta头提取两种类型的序列

weixin_32797081的博客

03-02

154

我一直在运行一个名为genewise的程序，将核苷酸序列翻译成基因的蛋白质序列 . 输入包括来自许多样品的组装的核苷酸序列 . 为了解析genewise输出，我一直在使用以下命令选择fasta标头：for i in `ls`; do (cd "$i" && awk '/^>*/{flag=1;} /\/\// {flag=0}flag' out_genewise > o...

用biopython解析序列

zhangyingna667的博客

04-02

1442

#01 读取常见的序列文件格式（fasta，gb） from Bio import SeqIO # 读取包含单个序列 Fasta 格式文件 fa_seq = SeqIO.read("bio and python练习/sequence01.fasta", "fasta") print(fa_seq) print('\n') # 逐行读取包含多个序列的 fasta 格式文件 for fa in Se...

计算fasta文件中氨基酸个数Python不使用Biopython