cd-hit 去除冗余序列

最新推荐文章于 2024-05-09 07:27:00 发布

VIP文章 sunxiaolinlinx

最新推荐文章于 2024-05-09 07:27:00 发布

阅读量896

点赞数 18

文章标签： linux

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sunxiaolinlinx/article/details/136687928

版权

cd-hit 去除冗余序列

CD-HIT早先是一个蛋白聚类的软件，其主要的特定就是快！

其去除冗余序列的大概思路就是：

首先对所有序列长度进行排序，从最长的开始，形成一个序列类，然后依次对序列进行处理，如果下一条序列和代表的序列相似性在cutoff，则将其加入同一类，否则得到新的类。
所以快主要是两个方面的原因：一个是使用了word过滤方法，即如果两条序列之间的相似性在80%（假设序列长度为100），那么它们至少有60个相同的长度为2的word，至少有40个相同的长度为3的word，至少有20个相同的长度为4的word。基于这个原则，在处理新的序列的时候，如果新的序列与已有序列的相同word的长度不能满足这些要求则不需要进行比对了，这极大的降低了时间消耗；另外一个速度快的原因是使用了index table，可以很快的计算序列之间相同word的数目。
当序列相似性在80%时，有20个位点是有差异的，极端的情况就是这20个位点对应的长度为2的字符串都不一样，因此是40个不一样，当有更多的不一样时，两条序列的相似性不可能在80%；同理，如果这20个位点对应的长度为4的字符串都不一样，则有80个不一样。

安装

点击该处进行下载https://github.com/weizhongli/cdhit/archive/V4.6.2.tar.gz

tar -zxf cdhit-4.6.2.tar.gz
cd tar -zxf cdhit-4.6.2.tar.gz
make

其输入格式为fasta

最低0.47元/天解锁文章

关注

18
点赞
踩
18

收藏

觉得还不错? 一键收藏
0
评论
cd-hit 去除冗余序列

例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容。提示：以下是本篇文章正文内容，下面案例可供参考提示：这里对文章进行总结：例如：以上就是今天要讲的内容，本文仅仅简单介绍了pandas的使用，而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。