去除fastq文件中不足四行的

最新推荐文章于 2023-07-26 10:41:52 发布

随风而逝*

最新推荐文章于 2023-07-26 10:41:52 发布

阅读量926

点赞数 2

文章标签： python fastq 生物信息

本文链接：https://blog.csdn.net/weixin_41869644/article/details/89076659

版权

1.下机的fastq文件中四行表示一个reads，但是有的reads 是不足四行的，需要我们去过滤这些reads并且也过滤掉第三行碱基数不等的。下面的python脚本专门处理该fastq文件。

#!/usr/bin/env python
#-*- encoding=UTF-8 -*-
import sys

fa = open(sys.argv[1], "r")
fb = open(sys.argv[1]+".fq", "w")

line_id = 0
for eachline in fa.readlines():
	line_id += 1
	if line_id % 4 == 1:
		read11=eachline.strip()[0]
		if read11!='@':
			line_id=0
			continue
		else:
			read1 = eachline
	elif line_id % 4 == 2:
		read2 = eachline
	elif line_id % 4 == 3:
		read3 = eachline
	else:
		if len(read2)==len(eachline) :	
			fb.write( read1 + read2 + read3 + eachline )
fa.close()
fb.close()

2.使用方法如下：

python /fastq所在的文件的绝对路径

本博主新开公众号，希望大家能扫码关注一下，十分感谢大家。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

随风而逝*

关注关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

fastq、fasta、sam数据格式

BaldStrong's Log Cabin

07-12

2897

FastQ FASTQ是一种存储了生物序列（通常是核酸序列）以及相应的质量评价的文本格式。它们都是以ASCII编码的。现在几乎是高通量测序的标准格式。 fastq格式是生物信息分析中最常见的格式之一通常我们可以将测序的数据分为双端测序和单端测序双端测序的数据含有两个fastq格式的文件，单端测序的数据只有一个fastq格式的文件 fastq格式的文件详解如下图：主要分为四行第一行是用来区...

FASTQ 格式说明

GodSunshine的博客

07-18

6777

FASTQ是一种存储了生物序列（通常是核酸序列）以及相应的质量评价的文本格式。目前几乎是高通量测序数据的标准格式。 FASTQ格式每四行描述一条测序序列信息：第一行由'@'开始，后面跟着序列的ID信息，这点跟FASTA格式是一样的。第二行是序列。第三行由'+'或者'-'开始，后面也可以跟着序列的描述信息。第四行是第二行测序序列的质量评价，字符数跟第二行的序列是相等的，一一

参与评论您还未登录，请先登录后发表或查看评论

如何去除测序数据中的接头和低质量的reads？软件fastx

biolxy的博客

07-06

9605

http://blog.sciencenet.cn/blog-1509670-914439.html

R语言处理FASTQ文件报错相关

CTQ77777的博客

07-12

1094

R语言处理fastq文件，报错相关

fastq文件格式处理工具系列学习

whiffen_cann的专栏

02-22

1万+

转自：http://ju.outofmemory.cn/entry/215236 fastq文件格式说明（wiki） FASTQ_format 维基百科NSC_2011_Illumina_fastqAndQC Illumina fastq 格式官方文档 fastq 文件质量控制 fastqc CommandLine Demo：./FastQC/fastqc -o

从fastq文件中批量提取/过滤序列【python】

每天都要学Python的博客

03-09

9749

博主也是刚刚接触生信，会将自己平时练习用到的python脚本发布到博客上，用来记录自己的学习之路。介绍测序回来的fastq文件通常在分析之前，需要进行过滤，该脚本利用python实现从压缩的fastq文件中提取指定ID的序列，并保存为新的压缩格式的fastq文件。说明输入文件为fq.gz文件，压缩的ID list文件。必须是压缩格式的文件才可以，如果非压缩格式，可以压缩成gz格式后...

linux怎么查看fastq格式文件,2020-01-11 了解FASTQ格式并处理FASTQ文件

weixin_35426022的博客

04-28

1883

FASTQ文件格式是测序仪展示数据的标准格式，可以看成FASTA文件的变种(FASTA+Q)，因为其包含了对序列中每个碱基的Qualify Measurement。(如：碱基A出错的可能性是1/1000)FASTQ格式详述FASTQ格式包括4个部分，每个部分1行，格式同FASTA相似，但缺陷也更多：类似FASTA的头部，以@而非>起始，后跟ID和描述文本测定的序列，通常为1行，但有时也会换行...

R 读入fastq文件

robustness博客

06-21

5075

##--构建函数--## seq_import <- function( file ){ seq <- readLines(file) # 读入序列，每个元素存入一行 seq <- seq[seq != ""] # 去除空行 is.anno <- regexpr("^>", seq, perl=T) # 正则匹配（regular expression）注释行,是注释行为1，否则为-1 seq.anno <- seq[ which(is.anno == 1)

fastq质量值_FASTQ格式解释和质量评估

weixin_42518709的博客

01-17

1882

FASTQ文件格式和命名高通量测序之后用于下游分析的数据一般存储在FASTQ文件中。为了节省空间，又不影响下游使用，也一般用gzip压缩的格式。单端测序每个文库只返回一个FASTQ文件，双端测序两个FASTQ文件，左端一般命名为_1或R1，右端命名为_2或R2。假如样品名字为ehbio，双端测序三个重复。习惯命名为ehbio_1_1.fq.gz ehbio_1_2.fq.gz, ehbio_2_...

如何读取fastq文件中前200条read，并计算它们的质量值

03-22

您可以使用以下命令读取fastq文件中前200条read，并计算它们的质量值： ``` head -n 800 | awk 'NR%4==0' | tr -d '\n' | fold -w 200 | awk '{print length, $0}' | sort -n | awk '{print $2}' | tr -d '\n' | wc...

Python-从Python高效处理FASTQ文件

08-10

从Python高效处理FASTQ文件

AfterQC, fastq数据的自动过滤裁剪误差去除及质量控制.zip

09-17

AfterQC, fastq数据的自动过滤裁剪误差去除及质量控制 AfterQCfastq数据的自动过滤。裁剪。误差去除及质量控制AfterQC 可以简单地浏览文件夹中的所有fastq文件，然后输出三个文件夹：好。坏和QC文件夹，包含好读。坏读和每个fastq文件/对的QC结果。目前它支

seqkit——fastq/fasta快速处理

weixin_41869644的博客

04-24

6952

本文来自：https://bioinf.shenwei.me/seqkit/usage/ seqkit SeqKit -- a cross-platform and ultrafast toolkit for FASTA/Q file manipulation Version: 0.9.1 Author: Wei Shen <shenwei356@gmail.com> Doc...

如何查看生物信息学中的 FASTQ 文件？

热门推荐

XIUXIU179的博客

11-24

1万+

1.1）测序质量值首先在了解fastq，fasta之前，了解一下什么是质量值。Phred 功能是处理测序仪直接生成的色谱图，给出相应的碱基和质量值。不同的测序仪会给出不同的色谱文件，Phred 能够识别三种格式的色谱文件，SCF, ABI 和预先处理的 ESD 格式。碱基的测序质量值 Q 和此碱基出错的概率 Pe 相关。公式：Q = -10 log10( Pe )。phred软件在对reads进行base calling的时候会给出每一个碱基的质量值，这个质量值的计算与测序预期错误率相...

算法（一）截取reads的算法

生信了

10-18

2008

原创：hxj7 关键词：phred; trim; mott; NGS（二代测序）分析的起点往往是fastq文件。fastq文件其实就是一条条的记录，每个记录包含4行。其中比较重要的是第二行和第四行：第二行是测序得到的碱基序列，第四行是每个碱基相应的测序质量，测序质量越高代表该碱基被测错的概率越低，反之越高。正因为二代测序是有一定的错误率的，所以我们在进行下游分析之前，常常要对fastq文件中的r...

Fast Q与 fast A

妹驼

07-02

851

一基础知识 1.1掌握FASTQ格式 (1)格式有什么特点？ fastq内容格式有4行：第1行主要储存序列测序时的坐标等信息；举个例子： • @ST-E00126:128:HJFLHCCXX:2:1101:7405:1133 • 1. @，开始的标记符号; • 2. ST-E00126:128:HJFLHCCXX，测序仪唯一的设备名称; • 3. 2，lane的编号; • 4. 1101，t...

NGS基础---Fasta/Fastq格式记录

cfc424的博客

12-16

3496

Fasta/Fastq格式记录生信中，常用到Fasta和Fastq格式，这两种是比较基础和常见的序列保存文件。通过wiki和网上资料，对这两种格式进行说明和记录。 1. Fasta格式 Fasta格式文件可以存储DNA(ATCGN)或者Protein序列(Amino Acid)。每两行表示一个序列，其中第一行以 > 开头，后面为序列名称或描述信息；第二行为序列本身。对于DNA序列就是简单的Adenine (A), Guanine (G), Thymine (T), Cyt

fastq与fasta文件格式解析

中原的博客

07-24

6210

fastq与fasta文件格式解析一、fasta格式二、fastq格式2.1 格式说明2.2 碱基质量计算2.3 Quality Score简化三、二代测序的fastq文件格式介绍四、补充说明4.1 illumina测序仪4.2 illumina测序方法4.3 测序流程参考文章一、fasta格式 fasta格式是一种非常简单的储存序列的格式（主要是把序列存储到数据库中的一种形式），可以储存核酸序列（RNA/DNA)和氨基酸序列(AA)，主要包括2个部分：以>开始的一行主要储存“序列的描述信息”；

怎么打开FASTQ文件

05-23

FASTQ文件是一种存储DNA序列数据的标准格式，可以使用文本编辑器打开。但是，由于FASTQ文件通常非常大，因此不建议使用文本编辑器打开。相反，您可以使用专门的生物信息学软件来处理和分析FASTQ文件。常用的生物信息学软件包括： 1. FASTQC：用于检查FASTQ文件的质量和序列特征的工具。 2. Trimmomatic：用于去除低质量序列，切除适配体和质量过滤的工具。 3. BWA：用于比对DNA序列到参考基因组的工具。 4. SAMtools：用于处理比对结果，例如排序，去重和格式转换的工具。您可以使用这些工具中的任何一个来处理FASTQ文件。如果您在使用这些工具时遇到困难，您可以阅读它们的文档或寻求生物信息学专家的帮助。