cd-hit:
是一种贪婪的增量聚类方法,首先对输入的序列根据序列的长短进行排序,并从最长到最短的顺序处理它们。将最长的序列自动的分为第一类并作为第一类的代表序列,然后将剩下的序列与在其之前发现的代表性序列进行比较,根据序列相似性将其归为其中的一类或成为新的一个聚类的代表序列,如此遍历所有序列完成聚类过程。 在默认方式中,序列仅和每一个聚类中的代表性序列(为这类中的最长序列)进行比较而不和这个类中的其他序列进行比对。 在准确模式下,序列会和每个聚类中的所有序列进行比较然后决定是成为新的一类还是归为其中的一类中。
安装:
最新的版本:
Releases · weizhongli/cdhit (github.com)
下载地址:版本是:cd-hit-v4.6.8-2017-1208
https://github.com/weizhongli/cdhit
wget https://github.com/weizhongli/cdhit/releases/download/V4.6.8/cd-hit-v4.6.8-2017-1208-source.tar.gz #下载cd-hit
tar -zxvf cd-hit-v4.6.8-2017-1208-source.tar.gz #解压
cd cd-hit-v4.6.8-2017-1208
make #编译
cd cd-hit-auxtools
make #编译
#如果编译失败,可以下载二进制版本,解压就可以使用不用编译
wget https://github.com/weizhongli/cdhit/releases/download/V4.6.7/cd-hit-v4.6.7-2017-0501-Linux-binary.tar.gz #解压即用,不用编译
在Liunx环境中进行环境变量的配置:
首先输入命令:
vim ~/.bashrc
在然后加入(输入你将文件夹放入的目录;可以使用pwd查看)
export PATH=/opt/cd-hit-v4.6.8-2017-1208:$PATH
保存,并运行
然后输入命令:
source ~/.bashrc配置:我将压缩放到/opt目录下
使用:
包说明:
* cd-hit Cluster peptide sequences
* cd-hit-est Cluster nucleotide sequences
* cd-hit-2d Compare 2 peptide databases
* cd-hit-est-2d Compare 2 nucleotide databases
* psi-cd-hit Cluster proteins at <40% cutoff
* cd-hit-lap Identify overlapping reads
* cd-hit-dup Identify duplicates from single or paired Illumina reads
* cd-hit-454 Identify duplicates from 454 reads
* cd-hit-otu Cluster rRNA tags
* cd-hit-para Cluster sequences in parallel on a computer cluster
* h-cd-hit Hierarchical clustering
参数说明:
参数说明
-i 输入文件,fasta格式的序列
-o 输出文件路径和名字
-c 相似性(clustering threshold),0.9表示相似性大于等于90%的为一类
-n 两两序列进行序列比对时选择的 word size
-d 0表示使用 fasta 标题中第一个空格前的字段作为序列名字
-M 16000,16GB RAM
-T 使用的线程数
Choose of word size:
-n 5 for thresholds 0.7 ~ 1.0
-n 4 for thresholds 0.6 ~ 0.7
-n 3 for thresholds 0.5 ~ 0.6
-n 2 for thresholds 0.4 ~ 0.5
对蛋白质序列小于40% 进行去重处理命令:必须是fasta文件
第一步对正样本进行去重的操作:这里的pos.fasta文件要输入自己对应的文件路径
> cd-hit -i pos.fasta -o pos40.fasta -c 0.4 -n 2
第二步对正负样本对比进行去重的操作:
> cd-hit-2d -i pos.fasta -i2 neg.fasta -o neg40_1.fasta -c 0.4 -n 2
第三步将得到负样本自己再进行去重的操作:
> cd-hit -i neg40_1.fasta -o neg40.fasta -c 0.4 -n 2