测序数据sff文件转为fastq数据工具:sff2fastq和sff_extract

帮客户下载测序数据的时候遇到一批454测序数据,看到了一种存储测序数据的sff格式,第一次见,考个古,记录下。

SFF (Standard Flowgram Format)是一种用于保存测序数据的文件格式,通常用于Roche 454测序平台。SFF文件包含每个测序片段的测序结果、质量值以及其他相关信息。

这两简单记录下两个将测序数据从sff格式转为fastq格式的工具sff2fastqsff_extract

示例数据:【仅有7天有效期】

链接:https://pan.baidu.com/s/12dK8EYh-A4b3fIxmsFXTbQ?pwd=yyds
提取码:yyds

sff2fastq

github地址:https://github.com/indraniel/sff2fastq

该程序 sff2fastq 从由454基因组测序仪生成的SFF文件中提取读取信息,并以FASTQ格式输出序列和质量分数。

git clone git://github.com/indraniel/sff2fastq.git;
cd sff2fastq;
make

使用说明

Usage: sff2fastq [options] [sff_file]
        -h                  This help message   
        -v                  Program and version information
        -n                  Output the untrimmed sequence
        -o <fastq_file>     Desired fastq output file. If not specified, 
                            defaults to stdout

使用示例

以宏基因组测序数据454Reads.C21~10.sff 为例(第一次见起个名字用~)

特点:该工具输出的数据是直接trim过的,fastq数据的第3行+ 后包含第1行的序列标识符。

sff2fastq 454Reads.C21~10.sff -o C21~10.fastq

C21~10.fastq内容

@H57R2PX01CHWI2
CCGTCATTATTGAGTCCATCTCATCCCTCGCT
+H57R2PX01CHWI2
6668?<::DDDDFFFFFFFFDBA:88;82444
@H57R2PX01AWCDE
CCGTCAATTATTGAGTCCATCTCATCCCTGCTGCCTCCCGTAGG
+H57R2PX01AWCDE
IIIII??666>IIIIIDDDIIIIIC888=DDGG779?A<9:9BG
@H57R2PX01CWV68
TCAATTCCTTTGAGTTTTAACCTTGCGGCCGTACTCCCCAGGCGGTCGATTTAACGCGTTAGCTCCGGAAGCCACGCCTCAAGGCACAC
+H57R2PX01CWV68
IIIIIIIGFF?D@:6333318899BBDDFFHHIII@@@@IIFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFF<::8A?<33
@H57R2PX01D3UX3
CCGTCAATTCCTTTGAGTTTTAGTCTTGCGACCGTACTCCCCAGGCGGTCTACTTATCGCGTTAGCTGCGCCACTAAAGCCTCAAAGGCCCCAACGGCTAGTAGACATCGTTTACGACATGGACTACCAGGGTATCTAATCCTGTTTGCTCCCCATGCTTTCGTACCTCAGCGTCAGTATTAGGCCAGATGGCTGCCTTCGCCATCGGTATTCCTCCAGATCTCTACGCATTTCACCGCTACACCTGGAATTCTACCATCCTCTCCCATACTCTAGCTCACCAGTATCGAATGCAATTCCCAAGTTAAGCTCGGGGATTTCACATCCGACTTAATAAGCCGCCTACGCACGCTTTACGCCCAGTAAATCCGATTAACGCTCGCACCCTCTGTATTACCGCGGCTGCTGGCACAGAGTTAGCCCGGTGCTTATTCTGCGAGTAACGTCCACTATCTCTAGGTATTAACTAAAGTAGCCTCCTCCTCGCTTAAAGTGCTTTACAA
+H57R2PX01D3UX3
IIIIIIIIIII999II<6666<IHIIIIIIIIIIIIII6666IIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIII???IIIIIDDDII6666IIIIIIIIIIIIIIIIIIHHHIIIIIIIIIIIIIIIIHHHIIIIIIIIIIIIHHHIIIBBBBIIIIHHHIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIHHHIIIIIHHHIIIIIIIIIIIIIIIIIIIIIIHHHIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIHHHIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIHHHCCDCCIIIIIICCCCIGGGIIIIIIIIII????ICC???HHHIIIIIIIIIHHCDDHCCCIIIEEEH???I????IIFBABEB=??C;ABAIFIFC??=CHHHHHHCCEECC@@@CC=:11100@@<<<@;>@BEEEEEEEEEEEEA@@@@@A@C=:364433..11333881;835../16@<@==@??<<9=?<<<?>..
@H57R2PX01A96AE
CCGTCAATTTCTTTGAGTTTCAACCTTGCGGTCGTACTCCCCAGGCGGAGTGCTTAATGCGTTTGCTGCAGCACTGAAGGGCGGAAACCCTCCAACACTTAGCACTCATCGTTTACGGCGTGGACTACCAGGGTATCTAATCCTGTTTGCTCCCCACGCTTTCGAGCCTCAGCGTCAGTTACAGACCAGAGAGCCGCCTTCGCCACTGGTGTTCCTCCATATATCTACGCATTTCACCGCTACACATGGAATTCCACTTCTCTCT
+H57R2PX01A96AE
IIIIIIIHHHIHHHIIIHHHIIIIIIIIIIIIIIIIIIFFDDFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFBBBBFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFIIIIIIIIIGGGGDB<<83333.

sff_extract

sff_extractseq_crumbs 中的一个子工具。用于从 454 和 Ion Torrent 使用的 SFF 文件中提取读取。

github地址:https://github.com/JoseBlanca/seq_crumbs

工具依赖于python2.7biopython

$ conda create -n py27  python=2.7
$ condact py27
$ conda install biopython -y
$ git clone https://github.com/JoseBlanca/seq_crumbs.git
$ cd seq_crumbs
$ python setup.py install

工具使用说明

usage: sff_extract [-h] [-o OUTPUT] [-c | -x XML_INFO]
                   [--min_left_clip MIN_LEFT_CLIP]
                   [--max_percentage MAX_PERCENT] [--version]
                   [input [input ...]]

SFF binary file reads extractor.

positional arguments:
  input                 SFF input files to process

optional arguments:
  -h, --help            show this help message and exit
  -o OUTPUT, --output OUTPUT
                        output file (default STDOUT)
  -c, --clip            Do recommended trims
  -x XML_INFO, --mira_xml_info XML_INFO
                        Path to the file to write the xml traceinfo
  --min_left_clip MIN_LEFT_CLIP
                        Clip at least this number of nucleotides (default: 0)
  --max_percentage MAX_PERCENT
                        nucleotide abundance to consider a SFF file as
                        "strange" (default: 50.0)
  --version             show program's version number and exit

使用示例

454Reads.C21~10.sff 为例

特点:可以通过 --clip控制是否执行trims。添加后与sff2fastq 结果相同。fastq数据的第3行+ 后省略掉第1行的序列标识符。

sff_extract 454Reads.C21~10.sff -o 454Reads.C21~10.fastq  --clip
  • –clip Do recommended trims

结果内容

@H57R2PX01CHWI2
CCGTCATTATTGAGTCCATCTCATCCCTCGCT
+
6668?<::DDDDFFFFFFFFDBA:88;82444
@H57R2PX01AWCDE
CCGTCAATTATTGAGTCCATCTCATCCCTGCTGCCTCCCGTAGG
+
IIIII??666>IIIIIDDDIIIIIC888=DDGG779?A<9:9BG
@H57R2PX01CWV68
TCAATTCCTTTGAGTTTTAACCTTGCGGCCGTACTCCCCAGGCGGTCGATTTAACGCGTTAGCTCCGGAAGCCACGCCTCAAGGCACAC
+
IIIIIIIGFF?D@:6333318899BBDDFFHHIII@@@@IIFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFF<::8A?<33
@H57R2PX01D3UX3
CCGTCAATTCCTTTGAGTTTTAGTCTTGCGACCGTACTCCCCAGGCGGTCTACTTATCGCGTTAGCTGCGCCACTAAAGCCTCAAAGGCCCCAACGGCTAGTAGACATCGTTTACGACATGGACTACCAGGGTATCTAATCCTGTTTGCTCCCCATGCTTTCGTACCTCAGCGTCAGTATTAGGCCAGATGGCTGCCTTCGCCATCGGTATTCCTCCAGATCTCTACGCATTTCACCGCTACACCTGGAATTCTACCATCCTCTCCCATACTCTAGCTCACCAGTATCGAATGCAATTCCCAAGTTAAGCTCGGGGATTTCACATCCGACTTAATAAGCCGCCTACGCACGCTTTACGCCCAGTAAATCCGATTAACGCTCGCACCCTCTGTATTACCGCGGCTGCTGGCACAGAGTTAGCCCGGTGCTTATTCTGCGAGTAACGTCCACTATCTCTAGGTATTAACTAAAGTAGCCTCCTCCTCGCTTAAAGTGCTTTACAA
+
IIIIIIIIIII999II<6666<IHIIIIIIIIIIIIII6666IIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIII???IIIIIDDDII6666IIIIIIIIIIIIIIIIIIHHHIIIIIIIIIIIIIIIIHHHIIIIIIIIIIIIHHHIIIBBBBIIIIHHHIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIHHHIIIIIHHHIIIIIIIIIIIIIIIIIIIIIIHHHIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIHHHIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIHHHCCDCCIIIIIICCCCIGGGIIIIIIIIII????ICC???HHHIIIIIIIIIHHCDDHCCCIIIEEEH???I????IIFBABEB=??C;ABAIFIFC??=CHHHHHHCCEECC@@@CC=:11100@@<<<@;>@BEEEEEEEEEEEEA@@@@@A@C=:364433..11333881;835../16@<@==@??<<9=?<<<?>..
@H57R2PX01A96AE
CCGTCAATTTCTTTGAGTTTCAACCTTGCGGTCGTACTCCCCAGGCGGAGTGCTTAATGCGTTTGCTGCAGCACTGAAGGGCGGAAACCCTCCAACACTTAGCACTCATCGTTTACGGCGTGGACTACCAGGGTATCTAATCCTGTTTGCTCCCCACGCTTTCGAGCCTCAGCGTCAGTTACAGACCAGAGAGCCGCCTTCGCCACTGGTGTTCCTCCATATATCTACGCATTTCACCGCTACACATGGAATTCCACTTCTCTCT
+
IIIIIIIHHHIHHHIIIHHHIIIIIIIIIIIIIIIIIIFFDDFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFBBBBFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFIIIIIIIIIGGGGDB<<83333.

小结

又一次见识到了Chatgpt的满嘴胡诌的功力。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值