cdhit工具的使用方法

cd-hit:

是一种贪婪的增量聚类方法,首先对输入的序列根据序列的长短进行排序,并从最长到最短的顺序处理它们。将最长的序列自动的分为第一类并作为第一类的代表序列,然后将剩下的序列与在其之前发现的代表性序列进行比较,根据序列相似性将其归为其中的一类或成为新的一个聚类的代表序列,如此遍历所有序列完成聚类过程。 在默认方式中,序列仅和每一个聚类中的代表性序列(为这类中的最长序列)进行比较而不和这个类中的其他序列进行比对。 在准确模式下,序列会和每个聚类中的所有序列进行比较然后决定是成为新的一类还是归为其中的一类中。

安装:

最新的版本:

Releases · weizhongli/cdhit (github.com)

下载地址:版本是:cd-hit-v4.6.8-2017-1208

https://github.com/weizhongli/cdhit

wget https://github.com/weizhongli/cdhit/releases/download/V4.6.8/cd-hit-v4.6.8-2017-1208-source.tar.gz    #下载cd-hit
tar -zxvf cd-hit-v4.6.8-2017-1208-source.tar.gz  #解压
cd cd-hit-v4.6.8-2017-1208
make  #编译
cd cd-hit-auxtools
make #编译
 
#如果编译失败,可以下载二进制版本,解压就可以使用不用编译
wget https://github.com/weizhongli/cdhit/releases/download/V4.6.7/cd-hit-v4.6.7-2017-0501-Linux-binary.tar.gz  #解压即用,不用编译

在Liunx环境中进行环境变量的配置:
 

首先输入命令:
vim ~/.bashrc

在然后加入(输入你将文件夹放入的目录;可以使用pwd查看)
export PATH=/opt/cd-hit-v4.6.8-2017-1208:$PATH
保存,并运行

然后输入命令:
source ~/.bashrc配置:我将压缩放到/opt目录下

使用:

包说明:

* cd-hit 		Cluster peptide sequences
* cd-hit-est 		Cluster nucleotide sequences
* cd-hit-2d 		Compare 2 peptide databases
* cd-hit-est-2d 	Compare 2 nucleotide databases
* psi-cd-hit 		Cluster proteins at <40% cutoff
* cd-hit-lap 		Identify overlapping reads
* cd-hit-dup 		Identify duplicates from single or paired Illumina reads
* cd-hit-454 		Identify duplicates from 454 reads
* cd-hit-otu 		Cluster rRNA tags
* cd-hit-para 		Cluster sequences in parallel on a computer cluster
* h-cd-hit 		Hierarchical clustering

参数说明:

参数说明

-i 输入文件,fasta格式的序列

-o 输出文件路径和名字

-c 相似性(clustering threshold),0.9表示相似性大于等于90%的为一类

-n 两两序列进行序列比对时选择的 word size

-d 0表示使用 fasta 标题中第一个空格前的字段作为序列名字

-M 16000,16GB RAM

-T 使用的线程数

Choose of word size:

-n 5 for thresholds 0.7 ~ 1.0

-n 4 for thresholds 0.6 ~ 0.7

-n 3 for thresholds 0.5 ~ 0.6

-n 2 for thresholds 0.4 ~ 0.5
 

对蛋白质序列小于40% 进行去重处理命令:必须是fasta文件

第一步对正样本进行去重的操作:这里的pos.fasta文件要输入自己对应的文件路径
> cd-hit -i pos.fasta -o pos40.fasta -c 0.4 -n 2

第二步对正负样本对比进行去重的操作:
> cd-hit-2d -i pos.fasta -i2 neg.fasta -o neg40_1.fasta -c 0.4 -n 2

第三步将得到负样本自己再进行去重的操作:

> cd-hit -i neg40_1.fasta -o neg40.fasta -c 0.4 -n 2

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值