Datawhale Al夏令营-AI for Science（AI+药物）

最新推荐文章于 2024-07-31 22:26:26 发布

m0_46648796

最新推荐文章于 2024-07-31 22:26:26 发布

阅读量803

点赞数 10

文章标签：人工智能 python 深度学习 deep learning

本文链接：https://blog.csdn.net/m0_46648796/article/details/140752787

版权

这次参加的是药物siRNA对相应的信使RNA（mRNA）沉默效率指标（简单理解为功效）
大赛地址：第二届世界科学智能大赛生命科学赛道：siRNA药物药效预测
赛题数据解释说明（来自官方）：
在zip压缩包中一共有4个文件：train_data.csv、sample_submission.csv、vocab.csv、baseline.py

train_data.csv：train_data.csv的每行为一条训练记录，包含数据记录的id、siRNA裸序列、相应的siRNA修饰序列、目标mRNA序列、siRNA浓度、细胞系、转染方法等实验室条件以及对应的实验室测量的mRNA Remaining值等总计19个字段。其中mRNA Remaining值为我们模型的训练目标，其余18个字段的全部或部分可以作为模型的输入特征。Remaining值代表了经过siRNA的沉默之后，mRNA的剩余百分比（相对于对照组）。Remaining值越低，siRNA的沉默效率越好，药效就越好。Remaining值一般位于0-100的区间内，100表示完全没有沉默效果，0表示该mRNA被彻底沉默，但是由于实验室测量的误差，可能存在少量训练记录的mRNA Remaining值在这个范围之外，这是正常的数据。
sample_submission.csv: sample_submission.csv为初赛的leaderboard submission测试集，格式与初赛训练集train_data.csv相同。不同之处在于mRNA_remaining_pct列的数值为空，参赛者需要填充这些空白处的预测结果后提交。
vocab.csv: vocab.csv为经过归一化后的siRNA化学修饰缩写表

第一列（Abbreviation）：列出了各种修饰核苷酸的缩写。
第二列（Chemical Name）：展示了与第一列中缩写对应的完整化学名称。这些化学名称详细描述了核苷酸的结构，包括对其进行的化学修饰。这些修饰可能涉及改变核苷酸的糖部分、磷酸基团或碱基，以增强其性能，如提高稳定性或特定的生物活性\

Abbreviation	Column 2
A	adenosine-3’-phosphate
C	cytidine-3’-phosphate
G	guanosine-3’-phosphate

baseline.py
本次比赛提供一个基础的基线方法，利用 RNN 来预测Remaining值。基线方法中我们仅使用了siRNA_sense_seq 字段作为特征，除此之外尚有其他特征对Remaining结果有重大影响。
评价指标: 平均绝对误差（MAE）\ 预测值在一定范围内的平均绝对误差（Range-MAE）\ 预测值在一定范围内的F1指标（F1）

# 导入相关库
import os  # 文件操作
import torch  # 深度学习框架
import random  # 随机数生成
import numpy as np  # 数值计算
import pandas as pd  # 数据处理

import torch.nn as nn  # 神经网络模块
import torch.optim as optim  # 优化器模块

from tqdm import tqdm  # 进度条显示
from rich import print  # 美化打印输出
from collections import Counter  # 计数器工具

from torch.utils.data import Dataset, DataLoader  # 数据集和数据加载器
from sklearn.model_selection import train_test_split  # 数据集划分
from sklearn.metrics import precision_score, recall_score, mean_absolute_error  # 模型评估指标

# 构建基因组分类器
class GenomicTokenizer:
    def __init__(self, ngram=5, stride=2):
        # 初始化分词器，设置n-gram长度和步幅
        self.ngram = ngram
        self.stride = stride
        
    def tokenize(self, t):
        # 将输入序列转换为大写
        t = t.upper()
        
        if self.ngram == 1:
            # 如果n-gram长度为1，直接将序列转换为字符列表
            toks = list(t)
        else:
            # 否则，按照步幅对序列进行n-gram分词
            toks = [t[i:i+self.ngram] for i in range(0, len(t), self.stride) if len(t[i:i+self.ngram]) == self.ngram]
        
        # 如果最后一个分词长度小于n-gram，移除最后一个分词
        if len(toks[-1]) < self.ngram:
            toks = toks[:-1]
        
        # 返回分词结果
        return toks

代码解读

类初始化：__init__方法接受两个参数 ngram 和 stride，用于设置分词器的 n-gram 长度和步幅。
分词方法：tokenize 方法将输入的序列转换为大写，并根据 ngram 和 stride 对序列进行分词。
n-gram 长度为 1 的处理：如果 ngram 为 1，直接将序列转换为字符列表。
n-gram 长度大于 1 的处理：按步幅进行分词，并确保每个分词的长度等于 ngram。
最后一个分词的处理：如果最后一个分词长度小于 ngram，将其移除。
返回分词结果：返回处理后的分词结果列表。

# 构建基因组词汇表
class GenomicVocab:
    def __init__(self, itos):
        # 初始化词汇表，itos是一个词汇表列表
        self.itos = itos
        # 创建从词汇到索引的映射
        self.stoi = {v: k for k, v in enumerate(self.itos)}
        
    @classmethod
    def create(cls, tokens, max_vocab, min_freq):
        # 创建词汇表类方法
        # 统计每个token出现的频率
        freq = Counter(tokens)
        # 选择出现频率大于等于min_freq的token，并且最多保留max_vocab个token
        itos = ['<pad>'] + [o for o, c in freq.most_common(max_vocab - 1) if c >= min_freq]
        # 返回包含词汇表的类实例
        return cls(itos)

代码解读

类初始化：__init__ 方法接受一个参数 itos，它是一个词汇表列表。
- itos：从索引到词汇的映射。
- stoi：从词汇到索引的映射，由 itos 列表生成。
类方法 create：创建词汇表的类方法，用于生成 GenomicVocab 类的实例。
- 参数：
  - tokens：所有token的列表。
  - max_vocab：词汇表的最大容量。
  - min_freq：词汇在被包含到词汇表中的最低频率。
- 步骤：
  - 统计 tokens 中每个token出现的频率。
  - 按照频率从高到低排序，并选择出现频率大于等于 min_freq 的token，最多保留 max_vocab 个。
  - 在词汇表中添加一个特殊的 <pad> token，用于填充序列。
  - 返回包含生成的 itos 列表的 GenomicVocab 实例。

class SiRNADataset(Dataset):
    def __init__(self, df, columns, vocab, tokenizer, max_len, is_test=False):
        # 初始化数据集
        self.df = df  # 数据框
        self.columns = columns  # 包含序列的列名
        self.vocab = vocab  # 词汇表
        self.tokenizer = tokenizer  # 分词器
        self.max_len = max_len  # 最大序列长度
        self.is_test = is_test  # 指示是否是测速集

    def __len__(self):
        # 返回数据集的长度
        return len(self.df)

    def __getitem__(self, idx):
        # 获取数据集中的第idx个样本
        row = self.df.iloc[idx]  # 获取第idx行数据
        
        # 对每一列进行分词和编码
        seqs = [self.tokenize_and_encode(row[col]) for col in self.columns]
        if self.is_test:
            # 仅返回编码后的序列（非测试集模式）
            return seqs
        else:
            # 获取目标值并转换为张量（仅在非测试集模式下）
            target = torch.tensor(row['mRNA_remaining_pct'], dtype=torch.float)
            # 返回编码后的序列和目标值
            return seqs, target

    def tokenize_and_encode(self, seq):
        if ' ' in seq:  # 修改过的序列
            tokens = seq.split()  # 按空格分词
        else:  # 常规序列
            tokens = self.tokenizer.tokenize(seq)  # 使用分词器分词
        
        # 将token转换为索引，未知token使用0（<pad>）
        encoded = [self.vocab.stoi.get(token, 0) for token in tokens]
        # 将序列填充到最大长度
        padded = encoded + [0] * (self.max_len - len(encoded))
        # 返回张量格式的序列
        return torch.tensor(padded[:self.max_len], dtype=torch.long)

代码解读

初始化：__init__ 方法初始化数据集的必要参数：
- df：包含数据的Pandas数据框。
- columns：包含序列的列名列表。
- vocab：词汇表对象，用于将token转换为索引。
- tokenizer：分词器对象，用于将序列分割为token。
- max_len：序列的最大长度，所有序列将被填充或截断到这个长度。
- is_train：布尔值，指示数据集是否用于训练（默认为False）。
获取数据集长度：__len__ 方法返回数据集的样本数量。
获取样本：getitem 方法获取数据集中指定索引的样本：
- 获取指定行的数据。
- 对每个包含序列的列进行分词和编码。
- 获取目标值（mRNA_remaining_pct），并将其转换为张量。
- 返回编码后的序列和目标值。
分词和编码：tokenize_and_encode 方法对输入序列进行分词和编码：
- 如果序列中包含空格，按空格分词（表示序列已经被修改）。
- 否则，使用分词器对序列进行分词。
- 将分词结果转换为索引，未知token用0（<pad>）表示。
- 对序列进行填充，使其长度等于最大长度 max_len。
- 返回张量格式的填充序列。

# 定义单层GRU模型
class SiRNAModel(nn.Module):
    def __init__(self, vocab_size, embed_dim=200, hidden_dim=256, n_layers=3, dropout=0.5):
        super(SiRNAModel, self).__init__()
        
        # 初始化嵌入层
        self.embedding = nn.Embedding(vocab_size, embed_dim, padding_idx=0)
        # 初始化GRU层
        self.gru = nn.GRU(embed_dim, hidden_dim, n_layers, bidirectional=True, batch_first=True, dropout=dropout)
        # 初始化全连接层
        self.fc = nn.Linear(hidden_dim * 4, 1)  # hidden_dim * 4 因为GRU是双向的，有n_layers层
        # 初始化Dropout层
        self.dropout = nn.Dropout(dropout)
    
    def forward(self, x):
        # 将输入序列传入嵌入层
        embedded = [self.embedding(seq) for seq in x]
        outputs = []
        
        # 对每个嵌入的序列进行处理
        for embed in embedded:
            x, _ = self.gru(embed)  # 传入GRU层
            x = self.dropout(x[:, -1, :])  # 取最后一个隐藏状态，并进行dropout处理
            outputs.append(x)
        
        # 将所有序列的输出拼接起来
        x = torch.cat(outputs, dim=1)
        # 传入全连接层
        x = self.fc(x)
        # 返回结果
        return x.squeeze()

代码解读

初始化方法 __init__：
- vocab_size：词汇表大小，用于嵌入层。
- embed_dim：嵌入维度，嵌入层将词汇映射为 embed_dim 维向量。
- hidden_dim：隐藏层维度，GRU的隐藏状态维度。
- n_layers：GRU的层数。
- dropout：Dropout层的丢弃率，用于防止过拟合。

该方法初始化了模型的各层，包括嵌入层、GRU层、全连接层和Dropout层。

前向传播方法 forward：
- 将输入序列传入嵌入层进行词汇嵌入。
- 对每个嵌入的序列进行GRU处理，提取最后一个隐藏状态并进行Dropout处理。
- 将所有处理后的序列输出拼接起来，并传入全连接层。
- 返回经过全连接层后的结果。

# 定义评估指标计算函数
def calculate_metrics(y_true, y_pred, threshold=30):
    # 计算平均绝对误差
    mae = np.mean(np.abs(y_true - y_pred))

    # 将实际值和预测值转换为二进制分类（低于阈值为1，高于或等于阈值为0）
    y_true_binary = (y_true < threshold).astype(int)
    y_pred_binary = (y_pred < threshold).astype(int)

    # 创建掩码，用于筛选预测值在0和阈值之间的样本
    mask = (y_pred >= 0) & (y_pred <= threshold)
    range_mae = mean_absolute_error(y_true[mask], y_pred[mask]) if mask.sum() > 0 else 100

    # 计算精确度、召回率和F1得分
    precision = precision_score(y_true_binary, y_pred_binary, average='binary')
    recall = recall_score(y_true_binary, y_pred_binary, average='binary')
    f1 = 2 * precision * recall / (precision + recall)

    # 计算综合评分
    score = (1 - mae / 100) * 0.5 + (1 - range_mae / 100) * f1 * 0.5

    return score

代码解读

计算平均绝对误差 (MAE)：
- mae = np.mean(np.abs(y_true - y_pred))：计算实际值和预测值之间的平均绝对误差。
将实际值和预测值转换为二进制分类：
- y_true_binary = (y_true < threshold).astype(int)：如果实际值小于阈值，设为1，否则设为0。
- y_pred_binary = (y_pred < threshold).astype(int)：如果预测值小于阈值，设为1，否则设为0。
创建掩码：
- mask = (y_pred >= 0) & (y_pred <= threshold)：筛选预测值在0和阈值之间的样本。
- range_mae = mean_absolute_error(y_true[mask], y_pred[mask]) if mask.sum() > 0 else 100：计算这些样本的平均绝对误差，如果没有符合条件的样本，设为100。
计算精确度、召回率和F1得分：
- precision = precision_score(y_true_binary, y_pred_binary, average='binary')：计算精确度。
- recall = recall_score(y_true_binary, y_pred_binary, average='binary')：计算召回率。
- f1 = 2 * precision * recall / (precision + recall)：计算F1得分。
计算综合评分：
- score = (1 - mae / 100) * 0.5 + (1 - range_mae / 100) * f1 * 0.5：综合MAE、范围内的MAE和F1得分，计算最终评分。
返回评分：
- return score：返回综合评分。

# 定义模型评估函数
def evaluate_model(model, test_loader, device='cuda'):
    # 设置模型为评估模式
    model.eval()
    predictions = []
    targets = []
    
    # 禁用梯度计算
    with torch.no_grad():
        # 遍历测试数据加载器中的每个批次
        for inputs, target in test_loader:
            # 将输入数据移动到指定设备上
            inputs = [x.to(device) for x in inputs]
            # 获取模型的输出
            outputs = model(inputs)
            # 将预测结果从GPU移到CPU，并转换为numpy数组，添加到predictions列表中
            predictions.extend(outputs.cpu().numpy())
            # 将目标值转换为numpy数组，添加到targets列表中
            targets.extend(target.numpy())

    # 将预测结果和目标值转换为numpy数组
    y_pred = np.array(predictions)
    y_test = np.array(targets)
    
    # 计算评估指标
    score = calculate_metrics(y_test, y_pred)
    # 打印测试得分
    print(f"Test Score: {score:.4f}")

# 定义模型训练函数
def train_model(model, train_loader, val_loader, criterion, optimizer, num_epochs=50, device='cuda', output_dir: str=""):
    # 将模型移动到指定设备
    model.to(device)
    best_score = -float('inf')  # 初始化最佳得分
    best_model = None  # 初始化最佳模型

    for epoch in range(num_epochs):
        model.train()  # 设置模型为训练模式
        train_loss = 0  # 初始化训练损失
        for inputs, targets in tqdm(train_loader, desc=f'Epoch {epoch+1}/{num_epochs}'):
            inputs = [x.to(device) for x in inputs]  # 将输入移动到设备
            targets = targets.to(device)  # 将目标值移动到设备
            
            optimizer.zero_grad()  # 清空梯度
            outputs = model(inputs)  # 前向传播
            loss = criterion(outputs, targets)  # 计算损失
            loss.backward()  # 反向传播
            optimizer.step()  # 更新参数
            
            train_loss += loss.item()  # 累加训练损失
        
        model.eval()  # 设置模型为评估模式
        val_loss = 0  # 初始化验证损失
        val_preds = []
        val_targets = []

        with torch.no_grad():
            for inputs, targets in val_loader:
                inputs = [x.to(device) for x in inputs]  # 将输入移动到设备
                targets = targets.to(device)  # 将目标值移动到设备
                outputs = model(inputs)  # 前向传播
                loss = criterion(outputs, targets)  # 计算损失
                val_loss += loss.item()  # 累加验证损失
                val_preds.extend(outputs.cpu().numpy())  # 收集预测值
                val_targets.extend(targets.cpu().numpy())  # 收集目标值
        
        train_loss /= len(train_loader)  # 计算平均训练损失
        val_loss /= len(val_loader)  # 计算平均验证损失
        
        val_preds = np.array(val_preds)
        val_targets = np.array(val_targets)
        score = calculate_metrics(val_targets, val_preds)  # 计算验证集上的得分
        
        print(f'Epoch {epoch+1}/{num_epochs}')
        print(f'Train Loss: {train_loss:.4f}, Val Loss: {val_loss:.4f}')
        print(f'Learning Rate: {optimizer.param_groups[0]["lr"]:.6f}')
        print(f'Validation Score: {score:.4f}')

        if score > best_score:
            best_score = score  # 更新最佳得分
            best_model = model.state_dict().copy()  # 更新最佳模型
            torch.save(model.state_dict(), os.path.join(output_dir, "best.pt".format(epoch)))  # 保存最佳模型
            print(f'New best model found with score: {best_score:.4f}')

    return best_model  # 返回最佳模型

# 设置参数并训练模型
# 设置参数
bs = 64    # 批次大小
epochs = 50    # 训练的迭代次数
lr = 0.001    # 学习率
seed = 42    # 随机种子
output_dir = "output/models"    # 模型保存路径

# 选择设备
device = 'cuda' if torch.cuda.is_available() else 'cpu'

# 设置随机种子以确保结果可重复
set_random_seed(seed)

# 创建输出目录
if not os.path.exists(output_dir):
    os.makedirs(output_dir)

# 加载数据
train_data = pd.read_csv('train_data.csv')

# 指定需要处理的列
columns = ['siRNA_antisense_seq', 'modified_siRNA_antisense_seq_list']
# 删除包含空值的行
train_data.dropna(subset=columns + ['mRNA_remaining_pct'], inplace=True)
# 将数据分为训练集和验证集
train_data, val_data = train_test_split(train_data, test_size=0.1, random_state=42)

# 创建分词器
tokenizer = GenomicTokenizer(ngram=3, stride=3)

# 创建词汇表
all_tokens = []
for col in columns:
    for seq in train_data[col]:
        if ' ' in seq:  # 修改过的序列
            all_tokens.extend(seq.split())
        else:
            all_tokens.extend(tokenizer.tokenize(seq))
vocab = GenomicVocab.create(all_tokens, max_vocab=10000, min_freq=1)

# 找到最大序列长度
max_len = max(max(len(seq.split()) if ' ' in seq else len(tokenizer.tokenize(seq)) 
                    for seq in train_data[col]) for col in columns)

# 创建数据集
train_dataset = SiRNADataset(train_data, columns, vocab, tokenizer, max_len)
val_dataset = SiRNADataset(val_data, columns, vocab, tokenizer, max_len)

# 创建数据加载器
train_loader = DataLoader(train_dataset, batch_size=bs, shuffle=True)
val_loader = DataLoader(val_dataset, batch_size=bs)

# 初始化模型
model = SiRNAModel(len(vocab.itos))
criterion = nn.MSELoss()

# 初始化优化器
optimizer = optim.Adam(model.parameters(), lr=lr)

# 训练模型
best_model = train_model(model, train_loader, val_loader, criterion, optimizer, epochs, device, output_dir=output_dir)

Datawhale基础Baseline中还有后续读取模型进行测试验证，这里不再给出。
明天更基本操作流程、整体的思考过程（我自己瞎想的，不成熟）。

m0_46648796

关注

10
点赞
踩
30

收藏

觉得还不错? 一键收藏
0
评论
Datawhale Al夏令营-AI for Science（AI+药物）

train_data.csv：train_data.csv的每行为一条训练记录，包含数据记录的id、siRNA裸序列、相应的siRNA修饰序列、目标mRNA序列、siRNA浓度、细胞系、转染方法等实验室条件以及对应的实验室测量的mRNA Remaining值等总计19个字段。Remaining值一般位于0-100的区间内，100表示完全没有沉默效果，0表示该mRNA被彻底沉默，但是由于实验室测量的误差，可能存在少量训练记录的mRNA Remaining值在这个范围之外，这是正常的数据。
复制链接

扫一扫