linux提取fasta文件的id,FASTA序列文件处理一网打尽

推荐两个地方:

地方一都是小脚本,但实用,大伙也可以自己练习写。

地方二成熟软件SeqKit,也很实用。

一、小脚本

大家可以在这里下载以下脚本:

https://github.com/jorvis/biocode/tree/master/fasta

各脚本作用信息如下:

|-- append_to_fasta_header.py

每个序列ID添加后缀

|-- check_for_embedded_fasta_headers.py

检查此种错误类型fasta序列

>gi1006569 DnaA [Vibrio harveyi]

MSSSLWLQCLQQLQEELPATEFSMWVRPLQAEVLHAC>gi409247 DNA repair protein

MVSLTFKNFKKEKVPLDLEPSNTILETKTKLAQSISCEESQIKLIYSGKVLQDSKTVSECGLKDGDQVVF

|-- compare_two_fastas.pl

比较两个文件相同序列与不同序列数目

|-- convert_fasta_contigs_to_gff3.py

将contig序列转换为GFF格式

|-- convert_fastq_to_fasta.py

将FASTQ转换为FASTA

|-- create_fasta_pseudomolecules.pl

从遗传图或者Hi-C确定的map信息文件中获得假染色体序列(将contig连成染色体序列)

|-- extract_fasta_regions.py

提取特定区域的序列

|-- fasta_base_content.py

碱基含量统计

|-- fasta_size_distribution.pl

GC含量和长度分布统计

|-- fasta_size_distribution_plot.py

序列长度分布作图

|-- fasta_size_report.pl

序列长度信息统计

|-- filter_fasta_by_header_regex.py

使用正则表达式获取FASTA序列

|-- filter_fasta_by_ids.pl

根据ID提取序列

|-- filter_fasta_by_size.pl

根据长度过滤序列

|-- merge_fasta_files_and_uniquify_ids.py

你有多个序列ID相同的文件,想合并一起,保证序列ID唯一性

>CL1Contig1

>CL1Contig2

|-- merge_masked_fasta_files.py

将不同软件冰壁重复序列结果合并

|-- prepend_to_fasta_header.py

你有多个序列ID相同的文件,想合并一起,在序列前面添加前缀,保证序列ID唯一性

|-- reformat_fasta_residue_lengths.py

按照一行固定字符数目重新显示FASTA序列

|-- remove_duplicate_sequences.py

移除掉重复的序列

|-- remove_empty_sequences

  • 1
    点赞
  • 26
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值