自然语言处理笔记week9

最新推荐文章于 2024-08-19 18:18:09 发布

Max_Uer

最新推荐文章于 2024-08-19 18:18:09 发布

阅读量1.6k

点赞数 36

分类专栏：自然语言处理课程笔记文章标签：自然语言处理笔记人工智能

本文链接：https://blog.csdn.net/Max_Uer/article/details/139892983

版权

自然语言处理课程笔记专栏收录该内容

10 篇文章 0 订阅

订阅专栏

文章目录

week9课程内容
- - Information Extraction (信息抽取)

week9课程内容

Information Extraction (信息抽取)

Information Extraction（信息抽取，简称IE）是一种从自然语言文本中抽取出特定的事件或事实信息的技术，这些信息通常包括实体（entity）、关系（relation）和事件（event）。信息抽取的主要目的是帮助我们将海量内容自动分类、提取和重构，从而方便我们检查、比较和进一步处理这些信息。

1、Named Entity Recognition (NER)命名实体识别

（1）什么是命名实体：
对一个实体的一次引用（提及）。例如：北大、北京大学、PKU
（2）命名实体识别的定义：
找到文本中的命名实体，并给它分类（比如人、组织、地点、时间等等）。
（3）实现 NER 的方法：

Rule-based 基于规则：
ML-based approaches 使用机器学习方法：
流程：
原始文本 -> 人工标注 -> 标注后的文本 -> 特征提取、IOB编码 -> 得到训练数据集 -> 训练分类器 -> 得到NER模型
具体如下图：

其中，使用IOB标注实体时，对于 N 个类型的实体，一共会有 2N+1 个标签。因为每个实体都有 B（begin）标签和 I（inside）标签，再加上一个公共的 O（outside）标签，一共 2N+1。
（1）Maximum Entropy Markov Model (MEMM)：
最大熵马尔科夫模型，会结合上下文单词以及过去已经做出的决策结果，来决定当前的决策结果。如下：
在这里插入图片描述

在这里插入图片描述

（2）Conditional Random Fields (CRF)：
条件随机场，是一种基于概率图的模型，它能够学习出输入和输出之间的映射关系。
（3）Bidirectional LSTM-CRF (BiLSTM-CRF)：
双向长短期记忆网络条件随机场，是结合了双向长短期记忆网络和条件随机场的模型。

（4）NER的评估：
是命名实体层面的评估，而不是 token 层面。
其实还是计算 precision、recall、F1 score。

2、Relation Detection and Classification

获得命名实体后，我们就要考虑它们之间的关系。
对于命名实体之间关系的分析，我们将之分为两个步骤：
（1）关系检测：确定实体之间是否有关系，“是”或“不是”。
（2）关系分类：确定关系的类型。

进行关系分析的伪代码如下：
在这里插入图片描述

对上面两个任务，我们都要进行命名实体的特征提取，才能继续进行后续模型训练。特征提取一般包括：
（1）命名实体内部的特征：命名实体所包含的单词、内部单词的类型、命名实体的headword关键字
（2）命名实体附近的特征：比如词袋
（3）命名实体的语法特征：比如命名实体之间在句法树上的位置关系
例子：
在这里插入图片描述

3、Template Filling 模板填充

模板填充（Template Filling）是一种在文本处理和信息抽取中常用的技术。该技术主要针对文本中描述的经常性、典型性事件或信息结构，通过建立相应的模板，并使用从文本中抽取的适当材料对模板进行填充，从而完成信息的抽取和整理。

补充介绍：IOBES
(B-begin，I-inside，O-outside，E-end，S-single) 多了一个 end 和一个 single。

–> 自然语言处理笔记week10

Max_Uer

关注

36
点赞
踩
41

收藏

觉得还不错? 一键收藏
0
评论
自然语言处理笔记week9

Information Extraction（信息抽取，简称IE）是一种从自然语言文本中抽取出特定的事件或事实信息的技术，这些信息通常包括实体（entity）、关系（relation）和事件（event）。该技术主要针对文本中描述的经常性、典型性事件或信息结构，通过建立相应的模板，并使用从文本中抽取的适当材料对模板进行填充，从而完成信息的抽取和整理。（1）命名实体内部的特征：命名实体所包含的单词、内部单词的类型、命名实体的headword关键字。（1）关系检测：确定实体之间是否有关系，“是”或“不是”。
复制链接

扫一扫