自然语言处理笔记week9

week9课程内容

Information Extraction (信息抽取)

Information Extraction(信息抽取,简称IE)是一种从自然语言文本中抽取出特定的事件或事实信息的技术,这些信息通常包括实体(entity)、关系(relation)和事件(event)。信息抽取的主要目的是帮助我们将海量内容自动分类、提取和重构,从而方便我们检查、比较和进一步处理这些信息。

1、Named Entity Recognition (NER)命名实体识别

(1)什么是命名实体:
对一个实体的一次引用(提及)。例如:北大、北京大学、PKU
(2)命名实体识别的定义:
找到文本中的命名实体,并给它分类(比如人、组织、地点、时间等等)。
(3)实现 NER 的方法:

  1. Rule-based 基于规则:
    在这里插入图片描述

  2. ML-based approaches 使用机器学习方法:
    流程:
    原始文本 -> 人工标注 -> 标注后的文本 -> 特征提取、IOB编码 -> 得到训练数据集 -> 训练分类器 -> 得到NER模型
    具体如下图:
    在这里插入图片描述

其中,使用IOB标注实体时,对于 N 个类型的实体,一共会有 2N+1 个标签。因为每个实体都有 B(begin)标签和 I(inside)标签,再加上一个公共的 O(outside)标签,一共 2N+1。
(1)Maximum Entropy Markov Model (MEMM):
最大熵马尔科夫模型,会结合上下文单词以及过去已经做出的决策结果,来决定当前的决策结果。如下:
在这里插入图片描述

在这里插入图片描述

(2)Conditional Random Fields (CRF):
条件随机场,是一种基于概率图的模型,它能够学习出输入和输出之间的映射关系。
(3)Bidirectional LSTM-CRF (BiLSTM-CRF):
双向长短期记忆网络条件随机场,是结合了双向长短期记忆网络和条件随机场的模型。

(4)NER的评估:
是命名实体层面的评估,而不是 token 层面。
其实还是计算 precision、recall、F1 score。

2、Relation Detection and Classification

获得命名实体后,我们就要考虑它们之间的关系。
对于命名实体之间关系的分析,我们将之分为两个步骤:
(1)关系检测:确定实体之间是否有关系,“是”或“不是”。
(2)关系分类:确定关系的类型。

进行关系分析的伪代码如下:
在这里插入图片描述

对上面两个任务,我们都要进行命名实体的特征提取,才能继续进行后续模型训练。特征提取一般包括:
(1)命名实体内部的特征:命名实体所包含的单词、内部单词的类型、命名实体的headword关键字
(2)命名实体附近的特征:比如词袋
(3)命名实体的语法特征:比如命名实体之间在句法树上的位置关系
例子:
在这里插入图片描述

3、Template Filling 模板填充

模板填充(Template Filling)是一种在文本处理和信息抽取中常用的技术。该技术主要针对文本中描述的经常性、典型性事件或信息结构,通过建立相应的模板,并使用从文本中抽取的适当材料对模板进行填充,从而完成信息的抽取和整理。

补充介绍:IOBES
(B-begin,I-inside,O-outside,E-end,S-single) 多了一个 end 和一个 single。

–> 自然语言处理笔记week10

  • 36
    点赞
  • 41
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值