昇思25天学习打卡营第20天|LSTM+CRF序列标注

最新推荐文章于 2024-09-01 11:55:12 发布

会飞的Anthony

最新推荐文章于 2024-09-01 11:55:12 发布

阅读量642

点赞数 26

分类专栏：人工智能自然语言处理文章标签：人工智能自然语言处理

本文链接：https://blog.csdn.net/ljd939952281/article/details/140204078

版权

人工智能同时被 2 个专栏收录

110 篇文章 1 订阅

订阅专栏

自然语言处理

12 篇文章 0 订阅

订阅专栏

自然语言处理的发展

随着深度学习和大数据技术的进步，自然语言处理取得了显著的进步。人们正在研究如何使计算机更好地理解和生成人类语言，以及如何应用NLP技术改善搜索引擎、语音助手、机器翻译等领域。

在搜索引擎方面，NLP技术可以帮助理解用户的搜索意图，提供更相关的搜索结果，从而提升用户体验。例如，通过语义理解，搜索引擎可以识别用户查询背后的真实需求，而不仅仅是基于关键词匹配来返回结果。

        在语音助手方面，NLP技术使得设备能够更自然地与用户互动。通过语音识别和自然语言理解，语音助手可以准确理解用户的语音指令，并做出相应的回应。NLP技术的进步还使得语音助手能够处理更复杂的对话场景，提供更智能和人性化的服务。

        在机器翻译方面，NLP技术的发展显著提升了翻译的准确性和流畅性。深度学习模型，特别是基于神经网络的翻译模型，如Transformer架构，使得机器翻译系统能够更好地捕捉源语言和目标语言之间的复杂关系，从而生成更加自然的翻译结果。

        总的来说，NLP技术的发展不仅在学术研究中取得了显著成果，也在实际应用中展现出巨大的潜力，正在不断改变我们的生活方式。

概述

序列标注是给定输入序列，对序列中每个Token进行标注标签的过程，广泛用于信息抽取任务，包括分词、词性标注、命名实体识别（NER）等。以NER为例，我们需要识别文本中的地名、机构名等特定实体。比如：

输入序列	清	华	大	学	座	落	于	首	都	北	京
输出标注	B	I	I	I	O	O	O	O	O	B	I

在上述例子中，"清华大学" 和 "北京" 是地名，需要将其识别出来。我们对每个输入的单词预测其标签，最后根据标签来识别实体。

条件随机场（CRF）

在序列标注任务中，相邻Token之间的关联性非常重要。以“清华大学”为例，如果某个字符被标记为I，那么前一个字符必须是B或I，这种依赖关系需要通过模型来学习和保证。条件随机场（CRF）是一种能够捕获这种关联关系的概率图模型，适合处理这种问题。

LSTM+CRF模型

为了实现这一目标，我们可以设计一个结合LSTM和CRF的模型。模型结构如下：

nn.Embedding -> nn.LSTM -> nn.Dense -> CRF

LSTM用于提取序列特征，经过Dense层变换获得发射概率矩阵，最后送入CRF层。

import mindspore as ms
import mindspore.nn as nn
import mindspore.ops as ops
import mindspore.numpy as mnp

class BiLSTM_CRF(nn.Cell):
    def __init__(self, vocab_size, embedding_dim, hidden_dim, num_tags, padding_idx=0):
        super().__init__()
        self.embedding = nn.Embedding(vocab_size, embedding_dim, padding_idx=padding_idx)
        self.lstm = nn.LSTM(embedding_dim, hidden_dim // 2, bidirectional=True, batch_first=True)
        self.hidden2tag = nn.Dense(hidden_dim, num_tags, 'he_uniform')
        self.crf = CRF(num_tags, batch_first=True)

    def construct(self, inputs, seq_length, tags=None):
        embeds = self.embedding(inputs)
        outputs, _ = self.lstm(embeds, seq_length=seq_length)
        feats = self.hidden2tag(outputs)

        crf_outs = self.crf(feats, tags, seq_length)
        return crf_outs

embedding_dim = 16
hidden_dim = 32

training_data = [(
    "清 华 大 学 坐 落 于 首 都 北 京".split(),
    "B I I I O O O O O B I".split()
), (
    "重 庆 是 一 个 魔 幻 城 市".split(),
    "B I O O O O O O O".split()
)]

word_to_idx = {}
word_to_idx['<pad>'] = 0
for sentence, tags in training_data:
    for word in sentence:
        if word not in word_to_idx:
            word_to_idx[word] = len(word_to_idx)

tag_to_idx = {"B": 0, "I": 1, "O": 2}

model = BiLSTM_CRF(len(word_to_idx), embedding_dim, hidden_dim, len(tag_to_idx))
optimizer = nn.SGD(model.trainable_params(), learning_rate=0.01, weight_decay=1e-4)
grad_fn = ms.value_and_grad(model, None, optimizer.parameters)

def train_step(data, seq_length, label):
    loss, grads = grad_fn(data, seq_length, label)
    optimizer(grads)
    return loss

训练模型

将生成的数据打包成Batch，按照序列最大长度，对长度不足的序列进行填充，分别返回输入序列、输出标签和序列长度构成的Tensor。

def prepare_sequence(seqs, word_to_idx, tag_to_idx):
    seq_outputs, label_outputs, seq_length = [], [], []
    max_len = max([len(i[0]) for i in seqs])

    for seq, tag in seqs:
        seq_length.append(len(seq))
        idxs = [word_to_idx[w] for w in seq]
        labels = [tag_to_idx[t] for t in tag]
        idxs.extend([word_to_idx['<pad>'] for i in range(max_len - len(seq))])
        labels.extend([tag_to_idx['O'] for i in range(max_len - len(seq))])
        seq_outputs.append(idxs)
        label_outputs.append(labels)

    return ms.Tensor(seq_outputs, ms.int64), \
           ms.Tensor(label_outputs, ms.int64), \
           ms.Tensor(seq_length, ms.int64)

data, label, seq_length = prepare_sequence(training_data, word_to_idx, tag_to_idx)

对模型进行预编译后，训练500个step。

from tqdm import tqdm

steps = 500
with tqdm(total=steps) as t:
    for i in range(steps):
        loss = train_step(data, seq_length, label)
        t.set_postfix(loss=loss)
        t.update(1)

模型效果

训练完成后，我们使用模型进行预测，观察效果。

score, history = model(data, seq_length)
predict = post_decode(score, history, seq_length)

idx_to_tag = {idx: tag for tag, idx in tag_to_idx.items()}

def sequence_to_tag(sequences, idx_to_tag):
    outputs = []
    for seq in sequences:
        outputs.append([idx_to_tag[i] for i in seq])
    return outputs

sequence_to_tag(predict, idx_to_tag)

结果

学习心得：在这篇文章中，我们探讨了LSTM和CRF结合在自然语言处理中的应用，特别是序列标注任务。通过实现BiLSTM+CRF模型，我们展示了如何进行命名实体识别。在学习过程中，我深刻体会到模型调参的重要性、数据清洗和特征选择的必要性，以及评估模型性能的关键性。

会飞的Anthony

关注

26
点赞
踩
14

收藏

觉得还不错? 一键收藏
打赏
0
评论
昇思25天学习打卡营第20天|LSTM+CRF序列标注

序列标注是给定输入序列，对序列中每个Token进行标注标签的过程，广泛用于信息抽取任务，包括分词、词性标注、命名实体识别（NER）等。以NER为例，我们需要识别文本中的地名、机构名等特定实体。输入序列清华大学座落于首都北京输出标注BIIIOOOOOBI在上述例子中，"清华大学" 和 "北京" 是地名，需要将其识别出来。我们对每个输入的单词预测其标签，最后根据标签来识别实体。
复制链接

扫一扫