Datawhale AI 夏令营第二期——基于术语词典干预的机器翻译挑战赛-笔记3-CSDN博客

本文链接：https://blog.csdn.net/2301_80193766/article/details/140580476

NLP竞赛：基于术语词典干预的机器翻译挑战赛

1. Transformer架构の介绍

Transformer是一种深度学习模型，最初由Vaswani等人在2017年的论文《Attention Is All You Need》中提出。该模型在自然语言处理（NLP）领域特别流行，因为它摒弃了循环神经网络（RNN）和卷积神经网络（CNN），完全基于注意力机制，使得模型在处理序列数据时更加高效和有效。

核心组件

1 编码器：由多个自注意力层和前馈网络层组成，每个子层之间使用残差连接和层归一化。

2 解码器：同样由多个层组成，但包含三个子层：掩码自注意力、编码器-解码器注意力和前馈网络。掩码自注意力确保在解码过程中只能看到当前位置之前的输出。

关键机制

1 自注意力：允许模型在序列内的任意位置间直接建立依赖，更好地理解数据的上下文关系。

2 多头注意力：模型会同时学习数据的不同表示，每个“头”关注序列的不同部分，以捕获多种不同级别的依赖关系。

3 位置编码：由于Transformer不使用循环结构，因此需要位置编码来提供单词在序列中的位置信息。

2. Transformer在机器翻译上の应用及代码示例

应用概述

Transformer模型在机器翻译领域取得了突破性进展，成为当前最主流的机器翻译模型之一。其通过高效的自注意力机制和并行计算能力，能够准确捕捉源语言和目标语言之间的全局依赖关系，生成高质量的翻译结果。

代码の示例

以下是一个简化的Transformer模型在机器翻译任务中的代码示例，主要涉及自注意力机制和位置编码的实现。

	`import torch`
	`import torch.nn as nn`
	`import torch.nn.functional as F`
	`import math`

	`class PositionalEncoding(nn.Module):`
	`def __init__(self, d_model, dropout=0.1, max_len=5000):`
	`super(PositionalEncoding, self).__init__()`
	`self.dropout = nn.Dropout(p=dropout)`
	`pe = torch.zeros(max_len, d_model)`
	`position = torch.arange(0, max_len, dtype=torch.float).unsqueeze(1)`
	`div_term = torch.exp(torch.arange(0, d_model, 2).float() * (-math.log(10000.0) / d_model))`
	`pe[:, 0::2] = torch.sin(position * div_term)`
	`pe[:, 1::2] = torch.cos(position * div_term)`
	`pe = pe.unsqueeze(0).transpose(0, 1)`
	`self.register_buffer('pe', pe)`

	`def forward(self, x):`
	`x = x + self.pe[:x.size(0), :]`
	`return self.dropout(x)`

	`class MultiHeadedAttention(nn.Module):`
	`def __init__(self, h, d_model, dropout=0.1):`
	`super(MultiHeadedAttention, self).__init__()`
	`assert d_model % h == 0`
	`self.d_k = d_model // h`
	`self.h = h`
	`self.linears = clones(nn.Linear(d_model, d_model), 4)`
	`self.attn = None`
	`self.dropout = nn.Dropout(p=dropout)`

	`def forward(self, query, key, value, mask=None):`
	`if mask is not None:`
	`mask = mask.unsqueeze(1)`
	`nbatches = query.size(0)`
	`query, key, value = [l(x).view(nbatches, -1, self.h, self.d_k).transpose(1, 2)`
	`for l, x in zip(self.linears, (query, key, value))]`
	`x, self.attn = attention(query, key, value, mask=mask, dropout=self.dropout)`
	`x = x.transpose(1, 2).contiguous().view(nbatches, -1, self.h * self.d_k)`
	`return self.linears[-1](x)`

	`def attention(query, key, value, mask=None, dropout=None):`
	`d_k = query.size(-1)`
	`scores = torch.matmul(query, key.transpose(-2, -1)) / math.sqrt(d_k)`
	`if mask is not None:`
	`scores = scores.masked_fill(mask == 0, -1e9)`
	`p_attn = F.softmax(scores, dim=-1)`
	`if dropout is not None:`
	`p_attn = dropout(p_attn)`
	`return torch.matmul(p_attn, value), p_attn`

	`# Helper function to clone layers`
	`def clones(module, N):`
	`return nn.ModuleList([copy.deepcopy(module) for _ in range(N)])`