linux cd-hit下载安装,教程 | 如何用cd-hit去除冗余序列？

最新推荐文章于 2024-04-12 14:31:20 发布

VIP文章按剑四顾

最新推荐文章于 2024-04-12 14:31:20 发布

阅读量3.1k

点赞数

文章标签： linux cd-hit下载安装

原标题：教程 | 如何用cd-hit去除冗余序列？

生信分析中经常要根据指定条件查找相似序列，比如构建多个样品间的非冗余基因集、分析样品间的相似程度等等，cd-hit这款软件就可以用较短的时间解决此类问题。其工作原理可概述为：将所有序列按照参数设定进行聚类，并将每一组聚类中的最长序列作为代表序列进行输出，同时给出每组聚类下的每个序列名可供相似度分析使用。下面我们来简单介绍一下它的使用方法。

1. 下载与安装

Cd-hit下载网址为https://github.com/weizhongli/cdhit/archive/V4.6.2.tar.gz，需要在linux系统下操作。解压压缩包后进入软件本体路径，直接输入命令：make，进行编译即可。

2. 输入文件

Cd-hit的输入文件仅有一个fasta格式文件，一般来说cd-hit是将几个样品的基因或蛋白序列进行聚类，所以需要将这些样品的序列汇总到一起作为输入文件，可在linux系统下通过cat命令实现：

cat a.fasta b.fasta c.fasta > all.fasta

其中a.fasta，b.fasta，c.fasta为fasta格式的三个样品基因或蛋白序列，all.fasta为汇总后的序列，在分析中作为cd-hit的输入序列。值得注意的是，在三个样品序列中不能有序列名相同的序列，否则会出现错误。因此，一般在分析时会在各样品序列名前添加样品名，这样即可避免重复。序列名是fasta文件中以“>”开头的行空格之前的内容，如图2-1中蓝色线圈出部分。

最低0.47元/天解锁文章

关注

0
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
linux cd-hit下载安装,教程 | 如何用cd-hit去除冗余序列？

原标题：教程 | 如何用cd-hit去除冗余序列？生信分析中经常要根据指定条件查找相似序列，比如构建多个样品间的非冗余基因集、分析样品间的相似程度等等，cd-hit这款软件就可以用较短的时间解决此类问题。其工作原理可概述为：将所有序列按照参数设定进行聚类，并将每一组聚类中的最长序列作为代表序列进行输出，同时给出每组聚类下的每个序列名可供相似度分析使用。下面我们来简单介绍一下它的使用方法。1. 下载...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。