linux cd-hit下载安装,CD-HIT学习

最新推荐文章于 2024-08-08 07:14:40 发布

崲峰

最新推荐文章于 2024-08-08 07:14:40 发布

阅读量1.1k

点赞数

文章标签： linux cd-hit下载安装

CD-hit

参数解读

-i 设置输入文件

-o 设置输出文件，可以将每次分析的ID阈值放到名称中，方便以后使用，如clean90，就是被清洗后，使用-c 0.90的分析结果

-c 设置ID阈值

-n 在ID各个范围内，作者给了一些设置mer值得建议

Choose of word size:

-n 5 for thresholds 0.7 ~ 1.0

-n 4 for thresholds 0.6 ~ 0.7

-n 3 for thresholds 0.5 ~ 0.6

-n 2 for thresholds 0.4 ~ 0.5

-d clstr文件中的描述字符长度，默认为20，设置为0的时候只去除第一个空格前面的字符

-M 设置使用内存大小，单位为MB

-T 设置核心数

-G 设置全局比对还是局部比对，如果这个参数设置为0，那么最好是配合-aS使用，避免过段的高质量匹配产生的无意义信息扰乱下游分析

-aS 比对序列的长度至少需要占较短序列(即冗余序列，因为较长的序列是代表序列)的比例

-AS 设置alignment coverage of short sequence，即短序列中，未在alignment中的序列必须短于这个值

-g 精确模式，但是会更慢，但是无论是否开启，代表representative序列不会变

-sc 对输出的cluster进行排序，大的cluster先输出

层级聚类

先对各个层级聚类生成的序列文件再次聚类

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

崲峰

关注关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

CD-HIT去除冗余序列

xiaobai1_1的博客

12-16

8777

1、简介 CD-HIT是用于蛋白质序列或核酸序列聚类的工具，根据序列的相似度对序列进行聚类以去除冗余的序列，一般用于构建非冗余的数据集用于后续的实验分析。 2. 下载与安装 Cd-hit下载网址为https://github.com/weizhongli/cdhit/archive/V4.6.2.tar.gz，需要在linux系统（如果你的电脑是Windows的，可以装一个虚拟机，并安装Linux...

linux cd-hit下载安装,教程 | 如何用cd-hit去除冗余序列？

weixin_42131439的博客

05-16

3486

原标题：教程 | 如何用cd-hit去除冗余序列？生信分析中经常要根据指定条件查找相似序列，比如构建多个样品间的非冗余基因集、分析样品间的相似程度等等，cd-hit这款软件就可以用较短的时间解决此类问题。其工作原理可概述为：将所有序列按照参数设定进行聚类，并将每一组聚类中的最长序列作为代表序列进行输出，同时给出每组聚类下的每个序列名可供相似度分析使用。下面我们来简单介绍一下它的使用方法。1. 下载...

参与评论您还未登录，请先登录后发表或查看评论

推荐开源项目：CD-HIT - 高效的序列聚类工具

最新发布

gitblog_00305的博客

08-08

649

Linux上CD-hit的下载安装

weixin_49325129的博客

05-22

362

首先，获取CDhit最新版本的安装包。

cd-hit安装与使用-cd-hit v4.8.1（bioinfomatics tools-005）

weixin_44874487的博客

03-03

5270

CD-HIT (Cluster Database at High Identity with Tolerance) 是一种广泛使用的生物信息学工具，主要用于快速聚类生物序列数据，如蛋白质或核酸序列，以减少数据冗余和简化数据分析。其基本原理涉及比较序列之间的相似性，将高度相似的序列分组到同一个聚类中，从而减少数据集的复杂性。

cygwin，cd-hit安装和使用

qq_44193342的博客

05-01

1799

最近想使用cd-hit对RNA进行取冗余 1 cygwin安装具体安装过程参考下面链接，不过要注意在安装组件包的时候记得安装make组件 Windows：安装cygwin教程_Big_quant的博客-CSDN博客_cygwin目录目录前言常见错误前言本篇文章参考这篇： cygwin安装但自从博主写后，这个东西发生了一些变化，因此，根据最新版的重新写了一遍。我们可以到Cygwin的官方网站下载Cygwin的安装程序或者直接使用来下载安来下载安装程序.下载完成后，运行setup.exe程序，首先是

ubuntu安装CD-HIT

Gentlezzx的博客

10-24

2781

法1 首先在官网下载安装包：我这时候的版本是：cd-hit-v4.8.1-2019-0228.tar.gz 切换到安装包所在目录，执行： gzip -d cd-hit-v4.8.1-2019-0228.tar.gz tar -xvf cd-hit-v4.8.1-2019-0228.tar 进入解压好的文件夹，进行编译（make），这里有时候会报错： In file included from ...

cd-hit linux,使用cd-hit对蛋白质或核酸序列进行聚类

weixin_33603105的博客

05-16

1263

2018.9.7 星期四多云 biolearncd-hit 是用于蛋白质序列或核酸序列聚类的工具，根据序列的相似度对序列进行聚类以去除冗余的序列，一般用于构建非冗余的数据集用于后续的实验分析。cd-hit聚类算法通常来说，根据序列相似度对序列进行聚类，首先想到的可能是通过计算两两序列之间的相似度对序列进行聚类，这样需要进行all by all的比较，相对来说比较费时，而 cd-hit 软件...

CD-HIT

纸上得来终觉浅，绝知此事要躬行！

04-21

2305

文章目录CD-HITref介绍算法原理索引表Short word filter短词统计Banded alignment算法限制PSI-CD-HIT在线服务器离线安装使用方式常用示例Gclust CD-HIT CD-HIT is a very widely used program for clustering and comparing protein or nucleotide sequences. 主要用于基因序列根据阈值去重 ref 官方： CD-HIT 官网 github CD-HIT cdhi

安装生物序列去冗余软件cd-hit

javafalcon的专栏

10-12

3296

cd-hit是一款生信常用于序列去冗余的工具，在https://github.com/weizhongli/cdhit下载后，需要自己编译，对于windows系统，工作步骤如下（以下以windows 10下安装为例）： 1. https://github.com/weizhongli/cdhit/releases下载cd-hit-v4.8.1-2019-0228.tar，解压得到文件夹：cd-hit-v4.8.1-2019-0228 2.下载cygwin，并安装 3.在安装cygwin时，勾选gcc-

cd-hit-user-guide.pdf 学习cd-hit新手必备！

12-10

cd-hit是非常快速的、是中国人（Weizhong Li）写的，很好用，最大的特点就是快。基本思路是首先对所有序列按照其长度进行排序，然后从最长的序列开始，形成第一个序列类，然后依次对序列进行处理，如果新的序列与已有的序列类的代表序列的相似性在cutoff以上则把该序列加到该序列类中，否则形成新的序列类。指导学习cd-hit

psi-cd-hit脚本

01-06

psi-cd-hit用于低于40%相似性的序列聚类,是直接从github上拷贝过来的代码哈，大家也可以直接去github上下载就行。

CD-HIT：高效精准的基因序列比对工具

gitblog_00034的博客

04-15

514

CD-HIT：高效精准的基因序列比对工具 cdhitAutomatically exported from code.google.com/p/cdhit项目地址:https://gitcode.com/gh_mirrors/cd/cdhit 项目简介是一个由Weizhong Li开发的开源项目，主要用于生物信息学中的基因或蛋白质序列比对。它能够快速地聚集相似序列，并以高精度进行聚类，是研究基...

linux文件cd小工具,科学网—关于Linux系统cd-hit软件和probcons软件的解析 - 陈振玺的博文...

weixin_34044889的博客

05-04

313

cd-hit软件是华人科学家Weizhong Li开发的一个快速去除冗余序列的软件，不仅速度快且准确度高，至于软件的详细介绍，科学网博主高山流水已在其博客中做了介绍(address：http://blog.sciencenet.cn/blog-54276-466940.html)其实对于了解linux的人而言，make其实是一个非常简单的步骤，但对于像我这样的Linux小白而言，却也算是一个难题 ...

CD-HIT的使用

热门推荐

一名学术waste的note pro

02-16

1万+

继续我的生信笔记系列。从某网站的附带文献中读到该工具，搜索了一下，发现网上的大佬们都在讲如何用它去冗余，相对官方页面的介绍而言很是片面，于是刚好有聚类的需求的我准备对其全体功能做做实验，学习一下由李伟忠博士在伯纳姆研究所（现为桑福德伯纳姆医学研究所）亚当·戈兹克博士的实验室开发的牛工具。首先是官方介绍： CD-HIT是一个非常广泛使用的程序，用于蛋白质或核苷酸序列的聚类和比较。最初由李伟忠博士在伯纳姆研究所（现为桑福德伯纳姆医学研究所）亚当·戈兹克博士的实验室开发，CD-HIT速度非常快，可以处理非常

cd-hit 去冗余

rojyang的博客

11-01

7838

下载：http://www.bioinformatics.org/cd-hit/ 背景：生信分析中经常要根据指定条件查找相似序列，比如构建多个样品间的非冗余基因集、分析样品间的相似程度。 cd-hit 去冗余，也可以叫做相似序列的聚类工作原理可概述为：将所有序列按照参数设定进行聚类，并将每一组聚类中的最长序列作为代表序列进行输出，同时给出每组聚类下的每个序列名可供相似度分析使用。其中设定阈...

cd-hit 转录本聚类

weixin_30339969的博客

01-23

1299

可以将Trinity.fasta最长转录本作为unigenes，也可以使用其他软件，如GTICL和cd-hit。一般GTICL和cd-hit得到的unigenes比Trinity软件得到的数量要多，有人指出在GTICL和cd-hit的结果中能找到自己想要的基因，而在最长库中有的难以找到。 1. 安装 Cd-hit下载网址为https://github.com/weizhongli/cdhit...

28、cd-hit去除冗余序列

weixin_38169769的博客

08-23

908

转载：http://blog.sina.com.cn/s/blog_670445240101nidy.html 网址：http://cd-hit.org ；http://www.bioinformatics.org/cd-hit/ ；下载：http://www.bioinformatics.org/cd-hit/ CD-HIT 去冗余，也可以叫做相似序列的聚类...

cd-hit 在linux系统中的安装过程，命令

05-31

CD-HIT可以通过源代码进行安装，以下是在Linux系统中安装CD-HIT的步骤： 1. 下载CD-HIT压缩包并解压缩： ``` wget https://github.com/weizhongli/cdhit/releases/download/V4.8.1/cd-hit-v4.8.1-2019-0228.tar.gz...