linux提取fasta文件的id,FASTA序列文件处理一网打尽

最新推荐文章于 2023-10-11 11:54:54 发布

往事都在

最新推荐文章于 2023-10-11 11:54:54 发布

阅读量5.5k

点赞数 1

文章标签： linux提取fasta文件的id

推荐两个地方：

地方一都是小脚本，但实用，大伙也可以自己练习写。

地方二成熟软件SeqKit，也很实用。

一、小脚本

大家可以在这里下载以下脚本：

https://github.com/jorvis/biocode/tree/master/fasta

各脚本作用信息如下：

|-- append_to_fasta_header.py

每个序列ID添加后缀

|-- check_for_embedded_fasta_headers.py

检查此种错误类型fasta序列

>gi1006569 DnaA [Vibrio harveyi]

MSSSLWLQCLQQLQEELPATEFSMWVRPLQAEVLHAC>gi409247 DNA repair protein

MVSLTFKNFKKEKVPLDLEPSNTILETKTKLAQSISCEESQIKLIYSGKVLQDSKTVSECGLKDGDQVVF

|-- compare_two_fastas.pl

比较两个文件相同序列与不同序列数目

|-- convert_fasta_contigs_to_gff3.py

将contig序列转换为GFF格式

|-- convert_fastq_to_fasta.py

将FASTQ转换为FASTA

|-- create_fasta_pseudomolecules.pl

从遗传图或者Hi-C确定的map信息文件中获得假染色体序列(将contig连成染色体序列)

|-- extract_fasta_regions.py

提取特定区域的序列

|-- fasta_base_content.py

碱基含量统计

|-- fasta_size_distribution.pl

GC含量和长度分布统计

|-- fasta_size_distribution_plot.py

序列长度分布作图

|-- fasta_size_report.pl

序列长度信息统计

|-- filter_fasta_by_header_regex.py

使用正则表达式获取FASTA序列

|-- filter_fasta_by_ids.pl

根据ID提取序列

|-- filter_fasta_by_size.pl

根据长度过滤序列

|-- merge_fasta_files_and_uniquify_ids.py

你有多个序列ID相同的文件，想合并一起，保证序列ID唯一性

>CL1Contig1

>CL1Contig2

|-- merge_masked_fasta_files.py

将不同软件冰壁重复序列结果合并

|-- prepend_to_fasta_header.py

你有多个序列ID相同的文件，想合并一起，在序列前面添加前缀，保证序列ID唯一性

|-- reformat_fasta_residue_lengths.py

按照一行固定字符数目重新显示FASTA序列

|-- remove_duplicate_sequences.py

移除掉重复的序列

|-- remove_empty_sequences

最低0.47元/天解锁文章

关注

1
点赞
踩
26

收藏

觉得还不错? 一键收藏
0
评论
linux提取fasta文件的id,FASTA序列文件处理一网打尽

推荐两个地方：地方一都是小脚本，但实用，大伙也可以自己练习写。地方二成熟软件SeqKit，也很实用。一、小脚本大家可以在这里下载以下脚本：https://github.com/jorvis/biocode/tree/master/fasta各脚本作用信息如下：|--append_to_fasta_header.py每个序列ID添加后缀|--check_for_embedded_fasta_he...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。