生物信息学知识
文章平均质量分 71
积累一些生物信息学的知识点
灰太狼家的小鸭子
物是人非事事休
展开
-
cdhit工具的使用方法
是一种贪婪的增量聚类方法,首先对输入的序列根据序列的长短进行排序,并从最长到最短的顺序处理它们。将最长的序列自动的分为第一类并作为第一类的代表序列,然后将剩下的序列与在其之前发现的代表性序列进行比较,根据序列相似性将其归为其中的一类或成为新的一个聚类的代表序列,如此遍历所有序列完成聚类过程。在默认方式中,序列仅和每一个聚类中的代表性序列(为这类中的最长序列)进行比较而不和这个类中的其他序列进行比对。在准确模式下,序列会和每个聚类中的所有序列进行比较然后决定是成为新的一类还是归为其中的一类中。原创 2023-07-01 14:04:36 · 1078 阅读 · 0 评论 -
生物信息学中---数据集不平衡的处理方法
NearMiss 是 Mani 等人根据数据分布特征,基于 KNN 算法提出的欠采样方案, 对多数类样本利用随机欠采样来达到数据平衡。根据不同数据采样的距离,可以分为三类: NearMiss-1、 NearMiss-2 和 NearMiss-3。NearMiss-1 对于每个多数类样本,选择与少数类样本最近的k 个并计算这k 个少数类样本的平均距离,保留平均距离最小的多数类样本;NearMiss-2 与 NearMiss-1不同的是选择最远的k 个少数类样本并计算平均距离并进行保留。原创 2023-05-04 17:16:08 · 940 阅读 · 0 评论 -
PTM蛋白质翻译后修饰的知识积累
积累原创 2023-04-06 10:02:06 · 104 阅读 · 0 评论 -
BLOSUM62的知识
BLOSUM 是“blocks substitution matrix”的缩写。BLOSUM打分矩阵最早由 Steven Henikoff. 和 J.G Henikoff在他们的论文中被提出。其中,他们从BLOCKS数据库中对那些在高度保守序列中的蛋白质家族进行观察测量进而整理出了氨基酸替换的概率。他们继续使用对数胜算来计算矩阵中的分值。与PAM打分矩阵相比,BLOSUM打分矩阵的内容皆由观察得出。在实际运用中,BLOSUM矩阵通常能获得更好的结果。原创 2023-04-05 19:04:29 · 2982 阅读 · 6 评论 -
生物信息学---蛋白质组学中氨基酸信息编码方式
其中 NTotal 是总组成残基的长度(例如,如果长度为 L 的蛋白质片段残基为 31 且 k = 0、1、2、3、4 和 5,则NTotal = L - k - 1 将是分别为 30、29、28、27、26 和 25)。其中 L 表示蛋白质序列片段 P 中来自中心位点的上游残基或下游残基的数量,如果ai是蛋白质序列片段 P 中的第 j 个位置残基,则 xi,j = 1,否则 xi,j = 0。N 表示蛋白质序列窗口大小(氨基酸序列长度), Sim 是归一化的氨基酸替代矩阵, M 是。原创 2023-04-03 19:58:11 · 4036 阅读 · 0 评论