昇思25天学习打卡营第12天 |昇思MindSpore LSTM+CRF 序列标注学习笔记

Mr_Orangechen

于 2024-07-31 11:36:12 发布

阅读量133

点赞数 1

分类专栏：昇思25天学习打卡文章标签：学习 lstm 笔记

本文链接：https://blog.csdn.net/Mr_Orangechen/article/details/140818659

版权

昇思25天学习打卡专栏收录该内容

26 篇文章 0 订阅

订阅专栏

一、概述

序列标注是给输入序列中的每个 Token 标注标签的过程，常用于信息抽取任务。
以命名实体识别为例，介绍了常见的标注方法，如“BIOE”标注。

二、条件随机场（CRF）

对于序列标注，不能简单视为多分类问题，因为相邻 Token 存在关联关系。
条件随机场是适合处理这种关联关系的概率图模型。
输出序列 y 的概率计算公式：P(y|x) = exp(Score(x,y)) / ∑_{y'∈Y} exp(Score(x,y'))
定义发射概率函数 ψ_EMIT 和转移概率函数 ψ_TRANS 来计算 Score 。

三、CRF 实现

Score 计算
- 函数：compute_score(emissions, tags, seq_ends, mask, trans, start_trans, end_trans)
  - 参数：emissions （发射概率矩阵），tags （标签），seq_ends （序列结束位置），mask （掩码矩阵），trans （转移概率矩阵），start_trans （起始转移概率向量），end_trans （结束转移概率向量）。
  - 功能：计算正确标签序列的得分。
  - 例句：score = compute_score(emissions_matrix, tags_vector, seq_ends_index, mask_matrix, trans_matrix, start_trans_vector, end_trans_vector)
Normalizer 计算
- 函数：compute_normalizer(emissions, mask, trans, start_trans, end_trans)
  - 参数：emissions （发射概率矩阵），mask （掩码矩阵），trans （转移概率矩阵），start_trans （起始转移概率向量），end_trans （结束转移概率向量）。
  - 功能：计算所有可能输出序列的对数指数和。
  - 例句：normalizer = compute_normalizer(emissions_matrix, mask_matrix, trans_matrix, start_trans_vector, end_trans_vector)
Viterbi 算法
- 函数：
  - viterbi_decode(emissions, mask, trans, start_trans, end_trans)
    - 参数：emissions （发射概率矩阵），mask （掩码矩阵），trans （转移概率矩阵），start_trans （起始转移概率向量），end_trans （结束转移概率向量）。
    - 功能：计算最大概率得分和标签历史。
    - 例句：score, history = viterbi_decode(emissions_matrix, mask_matrix, trans_matrix, start_trans_vector, end_trans_vector)
  - post_decode(score, history, seq_length)
    - 参数：score （得分），history （标签历史），seq_length （序列长度）。
    - 功能：根据得分和历史计算最佳预测序列。
    - 例句：best_tags_list = post_decode(score, history, seq_length_vector)
CRF 层
- 函数：sequence_mask(seq_length, max_length, batch_first=False)
  - 参数：seq_length （序列实际长度），max_length （最大长度），batch_first （是否 batch 在前，默认为 False）。
  - 功能：根据序列实际长度和最大长度生成掩码矩阵。
  - 例句：mask = sequence_mask(seq_length_vector, max_length_value, batch_first=True)
- 类：CRF
  - 参数：num_tags （标签数量），batch_first （是否 batch 在前，默认为 False），reduction （损失计算方式，如 ‘um’ ）。
  - 功能：实现完整的 CRF 层，包括前向训练和解码。
  - 例句：crf_layer = CRF(num_tags_value, batch_first=True, reduction='sum')

四、BiLSTM+CRF 模型

模型结构：nn.Embedding -> nn.LSTM -> nn.Dense -> CRF
- Embedding 层：将单词转换为向量。
- LSTM 层：提取序列特征。
- Dense 层：变换获得发射概率矩阵。
- CRF 层：处理序列标注的关联关系。
模型训练
- 生成训练数据和构造词表、标签表。
- 实例化模型和优化器。
- 定义 train_step 函数进行梯度计算和参数更新。
- 使用 prepare_sequence 函数将数据打包成 Batch 并填充。
- 进行模型训练和预测。