推荐两个地方:
地方一都是小脚本,但实用,大伙也可以自己练习写。
地方二成熟软件SeqKit,也很实用。
一、小脚本
大家可以在这里下载以下脚本:
https://github.com/jorvis/biocode/tree/master/fasta
各脚本作用信息如下:
|-- append_to_fasta_header.py
每个序列ID添加后缀
|-- check_for_embedded_fasta_headers.py
检查此种错误类型fasta序列
>gi1006569 DnaA [Vibrio harveyi]
MSSSLWLQCLQQLQEELPATEFSMWVRPLQAEVLHAC>gi409247 DNA repair protein
MVSLTFKNFKKEKVPLDLEPSNTILETKTKLAQSISCEESQIKLIYSGKVLQDSKTVSECGLKDGDQVVF
|-- compare_two_fastas.pl
比较两个文件相同序列与不同序列数目
|-- convert_fasta_contigs_to_gff3.py
将contig序列转换为GFF格式
|-- convert_fastq_to_fasta.py
将FASTQ转换为FASTA
|-- create_fasta_pseudomolecules.pl
从遗传图或者Hi-C确定的map信息文件中获得假染色体序列(将contig连成染色体序列)
|-- extract_fasta_regions.py
提取特定区域的序列
|-- fasta_base_content.py
碱基含量统计
|-- fasta_size_distribution.pl
GC含量和长度分布统计
|-- fasta_size_distribution_plot.py
序列长度分布作图
|-- fasta_size_report.pl
序列长度信息统计
|-- filter_fasta_by_header_regex.py
使用正则表达式获取FASTA序列
|-- filter_fasta_by_ids.pl
根据ID提取序列
|-- filter_fasta_by_size.pl
根据长度过滤序列
|-- merge_fasta_files_and_uniquify_ids.py
你有多个序列ID相同的文件,想合并一起,保证序列ID唯一性
>CL1Contig1
>CL1Contig2
|-- merge_masked_fasta_files.py
将不同软件冰壁重复序列结果合并
|-- prepend_to_fasta_header.py
你有多个序列ID相同的文件,想合并一起,在序列前面添加前缀,保证序列ID唯一性
|-- reformat_fasta_residue_lengths.py
按照一行固定字符数目重新显示FASTA序列
|-- remove_duplicate_sequences.py
移除掉重复的序列
|-- remove_empty_sequences