Paratope和Epitope

Paratope和Epitope分别指的是抗体结合的区域以及抗原结合的区域(Paratope是抗体的一部分,Epitope是抗原的一部分)。一个抗原分子可能有多个抗原决定簇也就是指多个抗原表位。

关于epitope

抗体识别抗原的时候并不是需要对整个抗原分子进行识别,而是对抗原分子上一些特征部位进行识别,就像是我们认出来一个人,只看脸即可,而不需要把整个人都看一遍才知道是谁。这些特征的部位就是我们的抗原表位(epitope)。一个蛋白可以有多个表位,同时抗体作为蛋白也是一种抗原。
目前有两种类型的表位:连续型表位和非连续型表位,连续型表位是一个连续的线性的氨基酸(就如同只通过看脸就可以找到人)。非连续型的表位则是依赖于蛋白的空间结构的(就好像我们通过一个人的上衣和鞋子判断我们要找的人)。
抗原的类型决定了抗体的类型,一个常规的单克隆抗体一般仅能识别一个表位,但是多克隆抗体可以识别多个表位。
对于蛋白抗原,对于那些能够在PDB数据库中找到序列一致性大于30%或者更高的序列,那么可以采用同源建模的方法进行建模。对于没有同源序列的序列,那么就需要用从头建模的方法,从头建模的方法目前alphafold做的最好(还未用过,现在已有第二代,2021-1-22),不过trRosetta是一个容易实现和方便使用的软件。

关于paratope

paratope指的是抗体上能够识别抗原的区域,也就是我们的CDR区域,因为抗体的结构相对保守(Fv的框架区域保守性较强),因此paratope可以采用同源建模的方法进行建模。

  • 3
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
好的,针对您的问题,我可以提供一份Python代码的示例,供您参考。以下是基于Keras库实现的CNN模型,用于对TCR数据库进行二分类,并对测试集进行评估。 ```python import numpy as np import pandas as pd from sklearn.model_selection import train_test_split from keras.models import Sequential from keras.layers import Dense, Conv1D, MaxPooling1D, Flatten, Dropout from keras.optimizers import Adam from keras.metrics import Precision, Recall, AUC # 读取数据集 df = pd.read_csv('vdjdb_processed.tsv', sep='\t') # 对CDR3序列进行one-hot编码 aa_dict = {'A': 0, 'C': 1, 'D': 2, 'E': 3, 'F': 4, 'G': 5, 'H': 6, 'I': 7, 'K': 8, 'L': 9, 'M': 10, 'N': 11, 'P': 12, 'Q': 13, 'R': 14, 'S': 15, 'T': 16, 'V': 17, 'W': 18, 'Y': 19} max_len = df['cdr3'].apply(len).max() X = np.zeros((len(df), max_len, len(aa_dict))) for i, seq in enumerate(df['cdr3']): for j, aa in enumerate(seq): X[i, j, aa_dict[aa]] = 1 # 划分训练集、验证集和测试集 X_train, X_test, y_train, y_test = train_test_split(X, df['antigen.epitope'].values, test_size=0.1, stratify=df['antigen.epitope'].values) X_train, X_val, y_train, y_val = train_test_split(X_train, y_train, test_size=0.111, stratify=y_train) # 构建CNN模型 model = Sequential() model.add(Conv1D(filters=64, kernel_size=3, activation='relu', input_shape=(max_len, len(aa_dict)))) model.add(MaxPooling1D(pool_size=2)) model.add(Conv1D(filters=128, kernel_size=3, activation='relu')) model.add(MaxPooling1D(pool_size=2)) model.add(Conv1D(filters=256, kernel_size=3, activation='relu')) model.add(MaxPooling1D(pool_size=2)) model.add(Flatten()) model.add(Dense(units=64, activation='relu')) model.add(Dropout(0.5)) model.add(Dense(units=1, activation='sigmoid')) # 编译模型 model.compile(optimizer=Adam(learning_rate=0.001), loss='binary_crossentropy', metrics=['accuracy', Precision(), Recall(), AUC()]) # 训练模型 model.fit(X_train, y_train, validation_data=(X_val, y_val), epochs=10, batch_size=128) # 在测试集上评估模型 score = model.evaluate(X_test, y_test, verbose=0) print('Test loss:', score[0]) print('Test accuracy:', score[1]) print('Test precision:', score[2]) print('Test recall:', score[3]) print('Test AUPRC:', score[4]) print('Test AUROC:', score[5]) ``` 在这段代码中,我们首先读取了存储了TCR数据库的vdjdb_processed.tsv文件,并对其中的CDR3序列进行了one-hot编码。然后,我们使用train_test_split函数对数据集进行了划分,按8:1:1的比例划分为训练集、验证集和测试集。接着,我们使用Keras库搭建了一个简单的CNN模型,并编译了模型,设置了Adam优化器、binary_crossentropy损失函数和accuracy、precision、recall、AUPRC和AUROC等评估指标。最后,我们在测试集上评估了模型,并输出了测试集上的一些指标。 需要注意的是,这只是一个简单的示例代码,您需要根据具体情况进行修改和调整,例如调整模型结构、调整超参数等等。另外,为了提高模型的性能,您可以尝试使用其他的氨基酸编码方式,或者使用更加复杂的模型结构,例如ResNet、Inception等等。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值