生信(八)zlib库操作fq-gz文件

本文介绍了如何使用C语言和zlib库处理fq.gz文件,特别是根据给定index筛选并输出匹配的reads。通过gzopen、gzgetc等zlib库函数实现文件读取,并提供了一种简化版的单文件处理方法,以及使用grep、sed和awk的替代解决方案。
摘要由CSDN通过智能技术生成

关键词:fq; gz; zlib

近期感谢yongzhe同学的需求,让我有机会能够用c来实操fq.gz的处理。
具体需求很简单:
输入一个index,将fq1和fq2(两个都是gz文件)中能够匹配该index的reads输出。输出文件也要是gz格式。
假设输入的index是ACCGAATG,那么下图中红色框中的字符串需要与输入index匹配才会将那条reads输出。
在这里插入图片描述
其实对fq.gz文件的处理,lh3(李恒)大牛已经写过一个头文件kseq.h(http://lh3lh3.users.sourceforge.net/kseq.shtml)。“拿来主义”当然没问题,但是对于新手而言,造轮子也是一个很好的进步途径。所以,我决定自己用c写。

C版本说明
fq.gz是gzip压缩过的文件,想要读取其内容需要用到zlib库(http://www.zlib.net/manual.html),我的程序中主要用到了gzopen、gzgetc、gzeof、gzerror以及gzclose这几个函数,分别是打开文件、读取一个字符、判断是否到文件末尾、获取出错信息、关闭文件的功能。

关于读取文件内容到内存中,不同于lh3使用了一个buffer数组,我只是简单使用了gzgetc函数。

另外,这次写getline类型的函数额外注意了EOF的处理。以前一直默认EOF之前一个字符应该是’\n’。这一次将EOF前一个字符不是’\n’的情况也考虑进去了。

最后,由于用到了zlib库,编译的时候要加上-lz参数。比如这样:

性能:
据yongzhe同学反映,c的版本所花时间大约是python版本的1/5。

具体的C代码
声明部分:

#include <stdio.h>
#include <zlib.h>
#include <stdlib.h>
#include <string.h>
#define RLINES 4        // set to be >= 1
#define MAXREADS 1000

struct Reads;
typedef struct Reads *preads;
int getGzLine(gzFile gfile, char* line);
preads getReads(gzFile gfile, preads rd);
int cmpIndex(const char* reads, const int nl, const char* index, const int nx);

struct Reads {
        int len;    
  • 2
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值