seqkit根据基因id_[基因组工具]seqkit的使用

SeqKit是一款跨平台的、快速的fasta/q文件处理工具,适用于Windows、Linux和Mac OS X。它提供了包括序列转换、格式转换、搜索、BAM文件处理等功能。例如,可以使用`seq`命令进行序列反转、互补和ID提取,`subseq`用于从区域或格式文件中获取序列,`grep`和`locate`进行序列搜索和错配,以及`rmdup`去除重复序列。此外,SeqKit还支持在BAM文件上进行操作,如`bam`命令,用于查看和分析记录特征的直方图。
摘要由CSDN通过智能技术生成

SeqKit的学习 --20191017

软件的介绍

SeqKit是一种跨平台的、极快的,全面的fasta/q处理工具。SeqKit为所有的主流操作系统提供了一种可执行的双元文件,包括Windows,Linux,Mac OS X,并且不依赖于任何的配置或预先配置就可以直接使用。

软件的安装

## Install via conda

conda install -c bioconda seqkit

软件的命令

## 序列和子序列

**seq** 转换序列(序列颠倒,序列互补,提取ID)

**subseq** 从区域/gtf/bed中获得序列,包括侧面的序列

**sliding** 滑动序列,支持环式基因组

**stats** 对FASTA/Q files进行简单统计

**faidx** 创造fasta索引文件并提取子序列

**watch** 检测并连线序列特点的柱状图

**sana** 清除质量不好的单线的fastq文件

## 格式转换

**fx2tab** 将FASTA/Q 文件转变成表格形式 (1th: name/ID, 2nd: sequence, 3rd: quality)

**tab2fx** 转变表格形式为fasta/q格式

**fq2fa** 转变fastq文件为fasta文件

**convert** 在Sanger, Solexa and Illumina中转换fastq的质量编码

**translate** 将DNA/RNA序列转变成蛋白序列(支持模棱两可的碱基)

## 搜索

**grep** 根据ID/名称/序列/序列motif 搜索序列,且允许错配

**locate** 定位子序列/motif,且允许错配

**fish** 使用本地比对在较大序列中寻找短序列

**amplicon** 经由引物检索扩增子(或它附近特定的区域)

## bam文件的处理和监视

**bam** 监视和连线bam文件记录特点的直方图

## 设置参数

**head** 打印第一个Nfasta/q的记录

**range** 在一个范围内(start:end)打印fasta/q的记录

**sample** 通过数量或比例来体验序列

**rmdup** 通过id/名称/序列 来去除复制的序列

**duplicate** 复制N次的序列

**common** 通过id/名称/序列 发现多条序列中共有的序列

**split** 通过id/seq region/size/parts (mainly for FASTA) 将序列劈开成文件

**split2** 将序列通过大小或部分 劈开成文件

## 编辑

**replace** 通过规律表达来代替名字或序列

**rename** 重新命名复制的ID

**restart** 为环状基因组重新设置起始位置

**concat** 从多个文件中经由相同的ID来连接序列

**mutate** 编辑序列(点突,插入,删除)

## 排序

**shuffle** 变换序列位置

**sort** 将序列经由id/name/sequence 进行排序

软件命令详解

Sequence ID

大部分的软件,包括seqkit默认将主导的非空格字母作为ID。

FASTA header

ID

>123456 gene name

123456

>longname

longname

>gi|110645304|ref|NC_002516.2| Pseudomona

gi|110645304|ref|NC_002516.2|

举例说明软件如何使用

##下载参考序列,一个fastq文件,两个fasta文件

wget http://data.biostarhandbook.com/reads/duplicated-reads.fq.gz

wget ftp://ftp.ncbi.nih.gov/refseq/release/viral/viral.1.1.genomic.fna.gz

wget ftp://ftp.ncbi.nih.gov/refseq/release/viral/viral.1.protein.faa.gz

对fastq文件进行一个概括浏览

$ seqkit stat *.gz

file format type num_seqs sum_len min_len avg_len max_len

duplicated-reads.fq.gz FASTQ DNA 15,000 1,515,000 101 101 101

viral.1.1.genomic.fna.gz FASTA DNA 6 195,842 5,386 32,640.3 154,675

viral.1.protein.faa.gz FASTA Protein 11

  • 0
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
SeqKit 是一个用于 FASTA/Q 文件处理的工具包,它提供了多种命令行工具可以帮助我们进行不同的操作。如果你需要根据基因ID进行注释,可以考虑使用 SeqKit 中的 `grep` 命令。具体操作步骤如下: 1. 将基因ID和注释信息保存在一个文件中,每行一个,用制表符分隔基因ID和注释信息。例如,文件名为 `gene_annotation.txt`,内容如下: ``` ENSG00000000003 GeneA ENSG00000000005 GeneB ENSG00000000419 GeneC ``` 2. 对于需要注释的 FASTA/Q 文件,使用 `grep` 命令根据基因ID进行匹配,并将注释信息添加到 FASTA/Q 的描述信息中。例如,对于一个名为 `sequences.fa` 的 FASTA 文件,可以使用以下命令: ``` seqkit grep -f gene_annotation.txt -i -p "(.+)" -r "{kv:anno}" sequences.fa > annotated_sequences.fa ``` 其中,`-f gene_annotation.txt` 指定了基因ID和注释信息的文件;`-i` 表示忽略大小写匹配;`-p "(.+)"` 表示匹配整个行;`-r "{kv:anno}"` 表示将注释信息添加到 FASTA/Q 的描述信息中,其中 `kv:anno` 表示从 `gene_annotation.txt` 文件中获取注释信息,并将其添加到 FASTA/Q 描述信息中。 运行以上命令后,会生成一个新的 FASTA 文件 `annotated_sequences.fa`,其中每个序列的描述信息会添加注释信息,例如: ``` >ENSG00000000003_GeneA ATCG... >ENSG00000000005_GeneB ATCG... >ENSG00000000419_GeneC ATCG... ``` 其中,`ENSG00000000003_GeneA` 表示基因ID为 `ENSG00000000003`,注释信息为 `GeneA`。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值