【MindSpore学习打卡】应用实践-自然语言处理-深入理解LSTM+CRF在序列标注中的应用

在自然语言处理(NLP)领域,序列标注是一项重要的任务。其目标是为给定的输入序列中的每个Token分配一个标签。序列标注的应用范围广泛,包括分词、词性标注、命名实体识别(NER)等。在本文中,我们将探讨如何利用LSTM和CRF模型进行序列标注,并使用MindSpore框架实现这一过程。通过深入了解LSTM和CRF的原理和实现方法,读者将能够更好地理解和应用这些技术来解决实际问题。

条件随机场(Conditional Random Field, CRF)

在序列标注任务中,简单地将每个Token的标签预测视为多分类问题是不够的,因为相邻Token之间存在依赖关系。以命名实体识别为例:

输入序列
输出标注BIIIOOOOOBI

在上述例子中,清华大学北京是地名,需要将其识别出来。我们对每个输入的单词预测其标签,最后根据标签来识别实体。为了捕获这种依赖关系,我们引入条件随机场(CRF)。

为什么需要CRF

在序列标注任务中,简单地将每个Token的标签预测视为多分类问题是不够的,因为相邻Token之间存在依赖关系。比如在命名实体识别任务中,一个实体的开始标签通常是"B",后续的标签是"I",而非实体的标签是"O"。如果我们不考虑这种依赖关系,模型可能会产生不合理的标签序列。条件随机场(CRF)通过引入发射概率和转移概率,能够捕获这种标签间的依赖关系,从而提高预测的准确性。

CRF的定义与参数化形式

CRF是一种概率图模型,适用于捕获序列中相邻Token之间的依赖关系。设 x = { x 0 , . . . , x n } x=\{x_0, ..., x_n\} x={x0,...,xn}为输入序列, y = { y 0 , . . . , y n } y=\{y_0, ..., y_n\} y={y0,...,yn}为输出的标注序列,其中 n n n为序列的最大长度。则输出序列 y y y的概率为:

P ( y ∣ x ) = exp ⁡ ( Score ( x , y ) ) ∑ y ′ ∈ Y exp ⁡ ( Score ( x , y ′ ) ) P(y|x) = \frac{\exp{(\text{Score}(x, y)})}{\sum_{y' \in Y} \exp{(\text{Score}(x, y')})} P(yx)=yYexp(Score(x,y))exp(Score(x,y))

其中, Score ( x , y ) \text{Score}(x, y) Score(x,y)用于衡量序列 x x x和标签 y y y的匹配程度。我们定义两个概率函数来计算 Score \text{Score} Score

  1. 发射概率函数 ψ EMIT \psi_\text{EMIT} ψEMIT:表示 x i → y i x_i \rightarrow y_i xiyi的概率。
  2. 转移概率函数 ψ TRANS \psi_\text{TRANS} ψTRANS:表示 y i − 1 → y i y_{i-1} \rightarrow y_i yi1yi的概率。

基于这两个函数,我们可以得到 Score \text{Score} Score的计算公式:

Score ( x , y ) = ∑ i log ⁡ ψ EMIT ( x i → y i ) + log ⁡ ψ TRANS ( y i − 1 → y i ) \text{Score}(x,y) = \sum_i \log \psi_\text{EMIT}(x_i \rightarrow y_i) + \log \psi_\text{TRANS}(y_{i-1} \rightarrow y_i) Score(x,y)=ilogψEMIT(xiyi)+logψTRANS(yi1yi)

CRF的实现

在实现CRF时,我们需要计算正确标签序列的得分(Score)和所有可能标签序列的对数指数和(Normalizer)。然后通过求解负对数似然损失(NLL)来进行模型训练。

Score计算

为什么需要序列填充和掩码

在实际应用中,输入序列的长度可能不一致。为了将这些序列打包成一个Batch,我们需要对长度不足的序列进行填充。然而,填充的部分不应参与模型的训练和预测。因此,我们引入了掩码矩阵(mask),用于忽略填充部分的计算。这样可以确保模型只关注有效的Token,提高训练和预测的准确性。

首先根据公式计算正确标签序列的得分:

def compute_score(emissions, tags, seq_ends, mask, trans, start_trans, end_trans):
    seq_length, batch_size = tags.shape
    mask = mask.astype(emissions.dtype)

    score = start_trans[tags[0]]
    score += emissions[0, mnp.arange(batch_size), tags[0]]

    for i in range(1, seq_length):
        score += trans[tags[i - 1], tags[i]] * mask[i]
        score += emissions[i, mnp.arange(batch_size), tags[i]] * mask[i]

    last_tags = tags[seq_ends, mnp.arange(batch_size)]
    score += end_trans[last_tags]

    return score

Normalizer计算

接下来,我们使用动态规划算法计算Normalizer:

def compute_normalizer(emissions, mask, trans, start_trans, end_trans):
    seq_length = emissions.shape[0]

    score = start_trans + emissions[0]

    for i in range(1, seq_length):
        broadcast_score = score.expand_dims(2)
        broadcast_emissions = emissions[i].expand_dims(1)
        next_score = broadcast_score + trans + broadcast_emissions
        next_score = ops.logsumexp(next_score, axis=1)
        score = mnp.where(mask[i].expand_dims(1), next_score, score)

    score += end_trans
    return ops.logsumexp(score, axis=1)

Viterbi算法

为什么使用Viterbi算法

在解码阶段,我们需要找到使得序列得分最高的标签序列。穷举所有可能的标签序列并计算其得分是不可行的,因为可能的标签序列数量是指数级的。Viterbi算法是一种动态规划算法,能够高效地找到最优标签序列。它通过逐步计算每个Token对应的最优标签,并保存中间结果,避免了重复计算,从而大大提高了解码的效率。

在解码阶段,我们使用Viterbi算法求解最优标签序列:

def viterbi_decode(emissions, mask, trans, start_trans, end_trans):
    seq_length = mask.shape[0]

    score = start_trans + emissions[0]
    history = ()

    for i in range(1, seq_length):
        broadcast_score = score.expand_dims(2)
        broadcast_emission = emissions[i].expand_dims(1)
        next_score = broadcast_score + trans + broadcast_emission
        indices = next_score.argmax(axis=1)
        history += (indices,)
        next_score = next_score.max(axis=1)
        score = mnp.where(mask[i].expand_dims(1), next_score, score)

    score += end_trans
    return score, history

def post_decode(score, history, seq_length):
    batch_size = seq_length.shape[0]
    seq_ends = seq_length - 1
    best_tags_list = []

    for idx in range(batch_size):
        best_last_tag = score[idx].argmax(axis=0)
        best_tags = [int(best_last_tag.asnumpy())]

        for hist in reversed(history[:seq_ends[idx]]):
            best_last_tag = hist[idx][best_tags[-1]]
            best_tags.append(int(best_last_tag.asnumpy()))

        best_tags.reverse()
        best_tags_list.append(best_tags)

    return best_tags_list

CRF层的封装

我们将上述代码封装成一个CRF层:

import mindspore as ms
import mindspore.nn as nn
import mindspore.ops as ops
import mindspore.numpy as mnp
from mindspore.common.initializer import initializer, Uniform

def sequence_mask(seq_length, max_length, batch_first=False):
    range_vector = mnp.arange(0, max_length, 1, seq_length.dtype)
    result = range_vector < seq_length.view(seq_length.shape + (1,))
    if batch_first:
        return result.astype(ms.int64)
    return result.astype(ms.int64).swapaxes(0, 1)

class CRF(nn.Cell):
    def __init__(self, num_tags: int, batch_first: bool = False, reduction: str = 'sum') -> None:
        if num_tags <= 0:
            raise ValueError(f'invalid number of tags: {num_tags}')
        super().__init__()
        if reduction not in ('none', 'sum', 'mean', 'token_mean'):
            raise ValueError(f'invalid reduction: {reduction}')
        self.num_tags = num_tags
        self.batch_first = batch_first
        self.reduction = reduction
        self.start_transitions = ms.Parameter(initializer(Uniform(0.1), (num_tags,)), name='start_transitions')
        self.end_transitions = ms.Parameter(initializer(Uniform(0.1), (num_tags,)), name='end_transitions')
        self.transitions = ms.Parameter(initializer(Uniform(0.1), (num_tags, num_tags)), name='transitions')

    def construct(self, emissions, tags=None, seq_length=None):
        if tags is None:
            return self._decode(emissions, seq_length)
        return self._forward(emissions, tags, seq_length)

    def _forward(self, emissions, tags=None, seq_length=None):
        if self.batch_first:
            batch_size, max_length = tags.shape
            emissions = emissions.swapaxes(0, 1)
            tags = tags.swapaxes(0, 1)
        else:
            max_length, batch_size = tags.shape

        if seq_length is None:
            seq_length = mnp.full((batch_size,), max_length, ms.int64)

        mask = sequence_mask(seq_length, max_length)

        numerator = compute_score(emissions, tags, seq_length-1, mask, self.transitions, self.start_transitions, self.end_transitions)
        denominator = compute_normalizer(emissions, mask, self.transitions, self.start_transitions, self.end_transitions)
        llh = denominator - numerator

        if self.reduction == 'none':
            return llh
        if self.reduction == 'sum':
            return llh.sum()
        if self.reduction == 'mean':
            return llh.mean()
        return llh.sum() / mask.astype(emissions.dtype).sum()

    def _decode(self, emissions, seq_length=None):
        if self.batch_first:
            batch_size, max_length = emissions.shape[:2]
            emissions = emissions.swapaxes(0, 1)
        else:
            batch_size, max_length = emissions.shape[:2]

        if seq_length is None:
            seq_length = mnp.full((batch_size,), max_length, ms.int64)

        mask = sequence_mask(seq_length, max_length)

        return viterbi_decode(emissions, mask, self.transitions, self.start_transitions, self.end_transitions)

BiLSTM+CRF模型

为什么使用双向LSTM

双向LSTM能够同时捕获序列中前后两个方向的依赖关系。在序列标注任务中,当前Token的标签不仅依赖于前面的Token,还可能依赖于后面的Token。通过使用双向LSTM,我们可以更全面地提取序列特征,从而提高模型的表现。

在实现了CRF层之后,我们设计一个双向LSTM+CRF的模型来进行命名实体识别任务的训练。模型结构如下:

nn.Embedding -> nn.LSTM -> nn.Dense -> CRF

具体实现如下:

class BiLSTM_CRF(nn.Cell):
    def __init__(self, vocab_size, embedding_dim, hidden_dim, num_tags, padding_idx=0):
        super().__init__()
        self.embedding = nn.Embedding(vocab_size, embedding_dim, padding_idx=padding_idx)
        self.lstm = nn.LSTM(embedding_dim, hidden_dim // 2, bidirectional=True, batch_first=True)
        self.hidden2tag = nn.Dense(hidden_dim, num_tags, 'he_uniform')
        self.crf = CRF(num_tags, batch_first=True)

    def construct(self, inputs, seq_length, tags=None):
        embeds = self.embedding(inputs)
        outputs, _ = self.lstm(embeds, seq_length=seq_length)
        feats = self.hidden2tag(outputs)

        crf_outs = self.crf(feats, tags, seq_length)
        return crf_outs

数据准备

我们生成两句例子和对应的标签,并构造词表和标签表:

embedding_dim = 16
hidden_dim = 32

training_data = [(
    "清 华 大 学 坐 落 于 首 都 北 京".split(),
    "B I I I O O O O O B I".split()
), (
    "重 庆 是 一 个 魔 幻 城 市".split(),
    "B I O O O O O O O".split()
)]

word_to_idx = {}
word_to_idx['<pad>'] = 0
for sentence, tags in training_data:
    for word in sentence:
        if word not in word_to_idx:
            word_to_idx[word] = len(word_to_idx)

tag_to_idx = {"B": 0, "I": 1, "O": 2}
len(word_to_idx)

模型训练

实例化模型,选择优化器并将模型和优化器送入Wrapper:

model = BiLSTM_CRF(len(word_to_idx), embedding_dim, hidden_dim, len(tag_to_idx))
optimizer = nn.SGD(model.trainable_params(), learning_rate=0.01, weight_decay=1e-4)
grad_fn = ms.value_and_grad(model, None, optimizer.parameters)

def train_step(data, seq_length, label):
    loss, grads = grad_fn(data, seq_length, label)
    optimizer(grads)
    return loss

将生成的数据打包成Batch,并进行填充:

def prepare_sequence(seqs, word_to_idx, tag_to_idx):
    seq_outputs, label_outputs, seq_length = [], [], []
    max_len = max([len(i[0]) for i in seqs])

    for seq, tag in seqs:
        seq_length.append(len(seq))
        idxs = [word_to_idx[w] for w in seq]
        labels = [tag_to_idx[t] for t in tag]
        idxs.extend([word_to_idx['<pad>'] for i in range(max_len - len(seq))])
        labels.extend([tag_to_idx['O'] for i in range(max_len - len(seq))])
        seq_outputs.append(idxs)
        label_outputs.append(labels)

    return ms.Tensor(seq_outputs, ms.int64), \
            ms.Tensor(label_outputs, ms.int64), \
            ms.Tensor(seq_length, ms.int64)
data, label, seq_length = prepare_sequence(training_data, word_to_idx, tag_to_idx)
data.shape, label.shape, seq_length.shape

预编译模型并训练500个step:

from tqdm import tqdm

steps = 500
with tqdm(total=steps) as t:
    for i in range(steps):
        loss = train_step(data, seq_length, label)
        t.set_postfix(loss=loss)
        t.update(1)

模型评估

训练完成后,我们使用模型进行预测:

score, history = model(data, seq_length)
score

使用后处理函数进行预测得分的处理:

predict = post_decode(score, history, seq_length)
predict

将预测的index序列转换为标签序列并打印输出结果:

idx_to_tag = {idx: tag for tag, idx in tag_to_idx.items()}

def sequence_to_tag(sequences, idx_to_tag):
    outputs = []
    for seq in sequences:
        outputs.append([idx_to_tag[i] for i in seq])
    return outputs
sequence_to_tag(predict, idx_to_tag)

通过上述步骤,我们成功实现了一个基于LSTM和CRF的序列标注模型,并在命名实体识别任务中进行了应用。希望这篇博客能帮助你更好地理解LSTM和CRF在序列标注中的应用。
在这里插入图片描述

  • 20
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
以下是使用TensorFlow实现基于LSTM-CRF序列标注的模型代码示例: ``` import tensorflow as tf from tensorflow.contrib.crf import crf_log_likelihood, viterbi_decode class BiLSTM_CRF(object): def __init__(self, num_chars, num_tags, embedding_dim, hidden_dim, batch_size=64, learning_rate=0.001): self.num_chars = num_chars self.num_tags = num_tags self.embedding_dim = embedding_dim self.hidden_dim = hidden_dim self.batch_size = batch_size self.learning_rate = learning_rate self.inputs = tf.placeholder(tf.int32, shape=[None, None], name='inputs') self.targets = tf.placeholder(tf.int32, shape=[None, None], name='targets') self.seq_length = tf.placeholder(tf.int32, shape=[None], name='seq_length') self._build_model() self._build_loss() self._build_optimizer() self.sess = tf.Session() self.sess.run(tf.global_variables_initializer()) def _build_model(self): # 定义词嵌入层 self.word_embeddings = tf.Variable(tf.random_uniform([self.num_chars, self.embedding_dim], -1.0, 1.0), name='word_embeddings') embeddings = tf.nn.embedding_lookup(self.word_embeddings, self.inputs) # 定义双向LSTM层 cell_fw = tf.contrib.rnn.LSTMCell(self.hidden_dim) cell_bw = tf.contrib.rnn.LSTMCell(self.hidden_dim) (output_fw, output_bw), _ = tf.nn.bidirectional_dynamic_rnn(cell_fw, cell_bw, embeddings, dtype=tf.float32, sequence_length=self.seq_length) output = tf.concat([output_fw, output_bw], axis=-1) # 定义全连接层 W = tf.get_variable('W', shape=[2*self.hidden_dim, self.num_tags], initializer=tf.contrib.layers.xavier_initializer()) b = tf.get_variable('b', shape=[self.num_tags], initializer=tf.zeros_initializer()) output = tf.reshape(output, [-1, 2*self.hidden_dim]) logits = tf.matmul(output, W) + b self.logits = tf.reshape(logits, [-1, tf.shape(self.inputs)[1], self.num_tags]) # 定义CRF层 self.transition_params = tf.get_variable('transition_params', shape=[self.num_tags, self.num_tags], initializer=tf.contrib.layers.xavier_initializer()) def _build_loss(self): log_likelihood, self.transition_params = crf_log_likelihood(inputs=self.logits, tag_indices=self.targets, sequence_lengths=self.seq_length, transition_params=self.transition_params) self.loss = tf.reduce_mean(-log_likelihood) def _build_optimizer(self): self.optimizer = tf.train.AdamOptimizer(self.learning_rate).minimize(self.loss) def train(self, inputs, targets, seq_length): feed_dict = {self.inputs: inputs, self.targets: targets, self.seq_length: seq_length} _, loss = self.sess.run([self.optimizer, self.loss], feed_dict=feed_dict) return loss def predict(self, inputs, seq_length): feed_dict = {self.inputs: inputs, self.seq_length: seq_length} logits, transition_params = self.sess.run([self.logits, self.transition_params], feed_dict=feed_dict) viterbi_sequences = [] for logit, length in zip(logits, seq_length): logit = logit[:length] viterbi_seq, _ = viterbi_decode(logit, transition_params) viterbi_sequences.append(viterbi_seq) return viterbi_sequences ``` 这里实现了一个包含词嵌入、双向LSTM、全连接和CRF层的模型,并使用Adam优化器进行训练。在训练过程,需要传入输入序列、目标序列序列长度;在预测过程,只需要传入输入序列序列长度即可得到预测的标注序列

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值