situttt-CSDN博客

原创 cd-hit记录解读

翻译自：https://github.com/weizhongli/cdhit/wiki/1.-Algorithm#user-content-References聚类序列数据库通常需要进行全对全比较；因此非常耗时。许多方法使用BLAST计算所有对所有相似性。对于这些方法来说，要对大数据库进行聚类非常困难。而CD-HIT可以使用基于短word的启发式算法避免许多成对的序列比对。CD-HIT是一种贪婪的增量聚类方法。基本CD-HIT算法将输入序列从长到短排序，并按最长到最短的顺序连续处理它们。

2024-07-19 11:25:16 1368

原创 maxbin使用翻译

翻译于https://sourceforge.net/projects/maxbin/files/===MaxBin是一款软件，能够将宏基因组的contig聚类到不同的bin中，每个bin包含来自一个物种的contig。MaxBin通过使用核苷酸组成信息和contig丰度信息，使用期望最大化（Expectation-Maximization）算法来实现binning。

2024-07-19 10:37:21 818

原创 metaphlan-help

最后，要获取特定进化支及其所有亚进化支中所有标记物的存在情况，应使用’-t clade_specific_strain_tracker’。通常情况下，首先使用默认的-t选项运行MetaPhlAn来分析社群中存在的物种，然后可以进行菌株级别的分析，以深入研究感兴趣的特定物种。‘marker_pres_table’：样本中存在的标记物列表（如果未通过–pres_th另外指定的话，阈值为1.0）‘rel_ab_w_read_stats’：以相对丰度的形式分析宏基因组，并估算每个进化支来源的读取数量。

2024-07-09 13:19:12 1335

原创 The bowtie2 aligner

Bowtie2使用Bowtie 2索引和一组测序读取文件，输出一组格式为SAM的比对结果。"比对"指的是我们检测读取序列与参考序列之间的相似性方法。一个"比对"就是这个过程的结果，换句话说：一个比对就是将一些或全部在读取序列中的字符与参考序列中的字符通过某种方式对齐，从而揭示它们的相似性的方法。例如：以破折号表示空隙，以垂直杠表示比对过的字符，我们使用对齐方式以便推测读取片段来自于参考基因组的位置。可惜，有时这并不可行。

2023-06-18 20:43:00 2317 1

原创生物的基本概念

基因是核酸中储存遗传信息的遗传单位也就是储存有功能的蛋白质多肽链或RNA序列信息以及表达这些信息所需要的全部核苷酸序列核酸是由核苷酸组成的生物大分子，分为核糖核苷酸（RNA）以及脱氧核糖核苷酸（DNA）核苷酸分为两类，脱氧核糖核苷酸（DNA）和核糖核苷酸（RNA），核苷酸是由磷酸基团、碱基、戊糖组成的。区分核糖核苷酸与脱氧核糖核苷酸的是戊糖2’的脱氧和碱基的不同碱基：分为五种：腺嘌呤(用A表示)，鸟嘌呤(用G表示)，胞嘧啶(用C表示)，胸腺嘧啶(用T表示)，尿嘧啶(用U表示)

2022-11-13 17:37:15 313

原创基因组装流程

介绍SPAdes序列拼接软件是序列拼接软件中的后起之秀，拼接效果很不错，目前很多拼接软件已经都不在更新了，而spades却持续进行更新。对于小基因组拼接有很好的拼接效果，不过经过更新，目前对于大基因组，甚至多倍体的基因组也有不错的效果。组装其实分两步，组装成config与config组装成scaffort，但是最近的软件里面都是将两部并作一步进行的。生成了K21，K33，K55三个kmer的长度的结果，程序里面可以使用-k来改变。这次我只使用了一个软件，还可以再加一个软件查看效果的。......

2022-07-19 21:18:27 2157

转载大连理工年鉴

大连理工大学年鉴http://nianjian.xiaze.com/tags.php?/%E5%A4%A7%E8%BF%9E%E7%90%86%E5%B7%A5%E5%A4%A7%E5%AD%A6%E5%B9%B4%E9%89%B4/1/13650600071/

2022-04-22 12:15:35 199

原创 pfam的使用-自用

pfam的使用-自用首先，这篇文章是引用的https://www.jianshu.com/p/fb3bd3de1c38这篇文章的其中有一些步骤我没有做过，保存在来步骤：数据库下载wget ftp://ftp.ebi.ac.uk:21/pub/databases/Pfam/current_release/Pfam-A.hmm.gzwget ftp://ftp.ebi.ac.uk:21/pub/databases/Pfam/current_release/Pfam-A.hmm.dat.gzwget

2021-12-24 16:53:27 4170

原创最近常用到的python处理方式：

规定范围筛查数据数据下载：链接：https://pan.baidu.com/s/14lpLMSOW9YPzzs449Dtxig提取码：180limport pandas as pdimport numpy as np#导入data = pd.read_csv('E:\\桌面\\Blastp1R',delimiter='\t',header=None)data.rename(columns={0:'id',3:'pident',4:'qcovs'},inplace=True )#去重dat

2021-12-24 11:19:54 164