知识图谱和语义计算 | (2) 实体识别

知识图谱和语义计算系列博客主要基于国科大赵军老师《知识图谱和语义计算》课程进行整理。

1. 信息抽取概述

在第一讲中,我们学习了知识图谱的生命周期。其中第二个生命周期就是 知识获取。
1)输入:领域知识本体;海量数据:文本、垂直站点、百科
2)输出:领域实例化知识。包括:实体集合、事件集合、实体关系/属性、事件关系
3)主要技术:信息抽取
4)主要任务:实体识别(实体抽取或命名实体识别NER)、实体链接、关系(属性)抽取、事件抽取、事件关系判别。(本讲主要介绍实体识别)

  • 信息抽取来源
    1)结构化数据(Infobox)
    特点:置信度高;规模小、缺乏个性化的属性信息
    在这里插入图片描述
    2)半结构化数据
    特点:置信度较高、规模较大、个性化的信息;形式多样、含有噪声
    在这里插入图片描述
    3)纯文本(非结构化数据/自然语言文本)
    特点:置信度低、复杂多样、规模大
    在这里插入图片描述
    是信息抽取的研究重点,即如何从非结构化文本中抽取出结构化的知识/信息。
    非结构化文本的实体关系抽取非常重要。

  • 非结构化文本信息抽取:示例
    在这里插入图片描述

  • 信息抽取主要任务
    信息抽取就是从自然语言文本中抽取指定类型的实体、关系、事件等事实信息,并形成结构化数据输出的文本处理技术。
    主要任务包括:实体识别、实体消歧(实体链接的主要部分)、关系抽取(属性抽取)、事件抽取、事件关系判别

2. 信息抽取的基础:分词和词性标注

  • 中文分词
    1)中文以字为基本书写单位,词语之间没有明显的区分标记。
    2)中文分词就是要由机器在中文文本中词与词之间加上标记。
    在这里插入图片描述
    3)和中文相比,英语切分问题较为容易。
    tokenization:识别出英文文本中的词(最简单的是按照空格切分,也可以使用nltk中的切分工具)
    lemmatization:对识别出的词进行词形分析。
    4)重要性:分词是汉语句子分析的基础;中文的语义与字词的搭配相关,不同的字词搭配(分词方案)会有不同的意思,如下图:
    在这里插入图片描述

  • 词性标注
    1)Part-of-speech (POS) tagging (词性标注): 消除词性兼类歧义,即确定当前上下文中每个词是名词、动词、形容词或其他词性的过程。
    在这里插入图片描述
    2)同一个词在不同的语境下会有不同的词性
    名词和动词兼类:爱好,把握,报道
    形容词和名词兼类:本分,标准,典型
    形容词和动词兼类:抽象
    名词和量词:行
    形容词和副词:真

  • 中文分词难点
    1)汉语中,字、词、词素和词组的界限模糊
    2)交集型歧义:对于汉字串ABC,AB、BC同时成词
    在这里插入图片描述
    3)歧义切分
    组合型歧义:对于汉字串AB,A、B、AB同时成词
    如:才能、学生会、将来等都是组合型歧义

4)未登录词识别
随着时间发展,新词会不断的出现。
实体名词和专有名词:
在这里插入图片描述
专业术语和新词语:
在这里插入图片描述

  • 词性标注难点
    词性兼类,很多词有多种词性,在不同的上下文中体现出不同的词性。
    在这里插入图片描述

  • 中文分词方法
    1)有词典切分/无词典切分
    在分词的过程中使用词典的方法是有词典切分,反之是无词典切分
    有字典切分的方法一般是基于规则的,无词典切分的方法一般是基于统计的
    2)基于规则的方法/基于统计的方法
    基于规则的方法不需要标注训练语料,能直接根据词典和规则进行分词
    基于统计的方法需要标注训练语料训练模型,可以分为生成式统计分词和判别式统计分词

  • 基于字典的方法
    1)按照一定的策略将待分析的汉字串与一个充分大的词典 中的词条进行匹配,若在词典中找到某个字符串,则匹配成功。
    2)典型方法:正向最大匹配法、反向最大匹配法、最短路径法(最少分词法)
    3)例子:
    在这里插入图片描述
    4)优缺点
    优点:程序简单易行,开发周期短;仅需要很少的语言资源(词表),不需要任何词法、句法、语义资源;
    缺点:歧义消解的能力差:基于规则的,很容易错误; 切分正确率不高。

  • 基于统计的分词方法:生成式方法
    1)原理:首先建立学习样本的生成模型,再利用模型对预测 结果进行间接推理。
    2)典型算法:HMM
    隐马尔可夫模型是关于时序的概率 模型,是一个双重随机过程。描述由一个隐藏的马尔可夫链随机生成不可观察的状态随机 序列(state sequence),再由各个状态生成一个观察,从而产生随机观察序列(observation sequence )的过程,序 列的每一个位置又可以看作是一个时刻。
    3)例子
    在这里插入图片描述
    在这里插入图片描述
    4)隐马尔可夫模型:分词+词性标注
    待处理句子:南京市长江大桥于1968年竣工(选择概率最大的序列)。
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    5)优缺点
    优点:在训练语料规模足够大和覆盖领域足够多的情况下,可以获得较高的切分正确率
    缺点:训练语料的规模和覆盖领域不好把握。模型实现复杂、计算量较大。

  • 基于统计的分词方法:判别式方法
    1)原理:在有限样本条件下,建立对于预测结果的判别函数,直接对预测结果进行判别;由字构词的分词理念,将分词问题转化为判别式分类问题,即转换为序列标注问题,对输入序列中的每个字基于标签集合(B、M、E、S)进行多分类。
    在这里插入图片描述
    2)典型算法:最大熵、SVM、CRF、感知机、神经网络
    3)基于神经网络(BiLSTM+CRF)的中文分词
    模型结构:首先,该模型将输入的句子/序列中的每个字都转化成向量表示,然后,使用双向的LSTM提取特征(利用NN强大的特征提取能力),最后,使用条件随机场(CRF)预测标签(显式考虑预测标签之间的依赖,添加一些约束,如M->B,E->M的概率应该很低,属于无效标注序列)。
    在这里插入图片描述
    Xinchi Chen, Long Short-Term Memory Neural Networks for Chinese Word Segmentation, EMNLP-2015
    4)优缺点
    优点:分词精度高、新词识别率较高;缺点:训练速度慢、需要设计特征模板、需要人工标注训练语料、性能与特征和语料紧密相关

  • 字典+统计的方法
    1)动机:
    基于统计的方法(神经网络)直接从标注样本中学习相关信息,但出现次数很少的样本无法得到很好处理,比如一 些稀有词和领域专有词。OOV(Out-of-vocabulary)问题是监督学习最主要的问题。
    Qi Zhang, Neural Networks Incorporating Dictionaries for Chinese Word Segmentation, AAAI-2018
    字典中既含有常见的词语,也含有不经常出现的词语, 所以将字典融入到神经网络模型中,使得模型能够更好地处理常见词、稀有词和领域专有词等。
    2)模型结构
    首先,将每个字转成向量表示,并为每个字构造相应的特征向量;然后, 使用两个双向的LSTM提取特征,将这两个特征拼接在一起;最后,使 用CRF进行解码
    在这里插入图片描述
    特征向量构造方法:
    在这里插入图片描述

  • 现有分词方法总结
    在这里插入图片描述

  • 当前分词技术存在的主要问题
    1)训练语料规模小:分词模型过于依赖训练样本,而标注大规模训练样本费时费力,由此导致分词系统对新词的识别 能力差,往往在与训练样本差异较大的测试集上性能大幅度下降。
    2)训练语料领域少:现有的训练样本主要在新闻领域,而实际应用千差万别:网络新闻、微博/微信/QQ等对话文本、 不同的专业领域(中医药、生物、化学、能源…)。
    3)对实体和专有名词的识别性能较低。

3. 命名实体识别

  • 定义
    1)狭义上:人名、组织机构名、地点等
    2)广义上:还可以包含时间、日期、数量表达式、金钱。确切含义需要结合具体的应用场景确定,如有的应用还要把住址、电子邮箱、电话号码、会议名称等作为命名实体。
    3)知识图谱中的命名实体:知识图谱是由数目众多的实体(节点)和实体之间的关系(边)所构成的。大多数实体都有类型信息,一般是一个层次化的类型路径,如/Person/Artist/Actor.
    在这里插入图片描述

  • 命名实体识别任务
    1)一般而言,主要是识别出待处理文本中七类(人名、机构 名、地名、时间、日期、货币和百分比)命名实体。
    2)包含两个子任务:实体边界识别和实体类别标注(Entity Typing)

  • 难点
    1)时间、日期、货币和百分比的构成有比较明显的规律,识别起来相对容易
    2)人名、地名、机构名等识别的难度很大:
    数量巨大,不能枚举,难以全部收录在词典中。
    某些类型的实体名称用字灵活,表达形式多样,而且没 有严格的规律可以遵循。
    首次出现后往往采用缩写形式。

  • 人名识别
    1)英文人名本身有一些明显特征(如大小写);切分造成的错误很少,人名识别在英文中变得较为容易。
    2)中文人名,名字用字范围广,分布松散,规律不很明显。相较于英文更难。

  • 中文地点识别
    难点:
    1)地名数量大,缺乏明确、规范的定义。
    2)真实语料中地名出现情况复杂
    特点:
    1)经常与方位词和介词连用
    2)地名中使用的多字词中绝大部分是两个字

  • 中文机构名识别
    难点:
    1)机构名中含有大量的人名、地名、企业字号等专有名称。 在这些专有名称中,地名所占的比例最大,其中未登录地名又占了相当一部分的比例。所以机构名识别应在人名、 地名等其他专名识别之后进行,其他专名识别的正确率对机构名识别正确率有较大影响。
    2)用词广泛
    3)机构名长度极其不固定
    4)机构名很不稳定,随着社会发展,新机构不断涌现,旧机构不断被淘汰、改组或更名。

  • 音译名识别
    难点:
    1)音译名内部很难划分出结构,但有一些常见音节,如“斯基、斯坦”等
    2)不同语言的音译规律不尽相同,如法语、俄语、蒙古语译名用字与英语就有较大区别(蒙语人名举例:“那顺乌日图、青格勒图”),按不同的语言训练不同的模型比使用统一的模型效果更好
    3)音译名可以是人名、地名或其他专名,上下文规律差别较大

  • NER方法分类
    1)有词典切分/无词典切分
    在分词的过程中使用词典的方法是有词典切分,反之是无词典切分, 有字典切分的方法一般是基于规则的,无词典切分的方法一般是基 于统计的
    2)基于规则的方法/基于统计的方法
    基于规则的方法不需要标注训练语料,能直接根据词典和规则进行 分词,基于统计的方法需要标注训练语料训练模型。基于统计的方 法可以分为生成式统计命名实体识别和判别式命名实体识别

  • 基于词典的NER方法(和之前分词方法相同)
    1)按照一定的策略将待分析的汉字串与一个充分大的 词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功。
    2)典型方法:正向最大匹配法、反向最大匹配法、最短路径法(最少分词法)

  • 基于统计的命名实体识别方法
    1)生成式方法
    原理:首先建立学习样本的生成模型,再利用模型对预测结果进行间接推理
    典型算法:HMM
    2)判别式方法
    原理:由字构词的命名实体识别理念,将NER问题转化为判别式分类问题(序列标注问题)。即对于输入序列中的每个元素(字或词)基于标签集合(实体类型和标记方法(BIO或BIOMS等)结合产生标签,如B-LOC,I-LOC等)进行多分类。
    在这里插入图片描述
    典型算法:Maxent,SVM,CRF,CNN,RNN,LSTM+CRF

  • LSTM+CRF命名实体识别
    1)动机:
    领域内资源(例如地理资源集gazetteers)或特征的获取耗时耗力,避免使用领域内的资源或特征;传统的特征提取过程中会用到复杂的NLP工具,会造成误差传递,利用神经网络强大的特征提取能力,自动从文本中学习特征。(CRF可以显式考虑预测标签之间的依赖,添加一些约束)。
    Guillaume Lample , Neural Architectures for Named Entity Recognition, NAACL-2016
    2)模型结构:
    每个句子按照词序逐个输入双向LSTM中,结合正反向隐层输出得到包含每个词类别特征的表示,输入CRF中,优化目标函数,从而得到每个词所属的实体类别。
    在这里插入图片描述
    3)词级别特征与字符级别特征:
    词级别的特征即每个词的词向量作为词的表示,字符级别特征是通过将每个词拆成字符 序列,通过双向LSTM得到该词的表示,用来捕获一些拼写的特性(例如:名字实体一般 是什么样子的),将两种表示结合,作为该词的LSTM+CRF模型输入。
    在这里插入图片描述

  • 汉语分词与实体识别联合模型
    1)动机:
    词边界能提供实体类别的有用信息,所以将词边界信息融入到命名实体识别中;汉语分词困难,与英语相比较分词准确率低,先分词,再进行实体识别,分词时的误差会传递到实体识别中,所以将分词与实体识别联合训练。
    Nanyun Peng, Improving Named Entity Recognition for Chinese Social Media with Word Segmentation Representation Learning, ACL-2016
    2)模型结构:
    首先,利用和上一小节类似的模型去做分词然后,将分词阶段LSTM隐层输出得到分词特征、词向量特征和传统的NER 特征融合,输入到CRF模型中,进行实体识别,分词和实体识别分别定义 损失函数,最后将两个损失函数融合,实现两个任务的联合学习。
    在这里插入图片描述
    在这里插入图片描述

  • 基于对抗训练的命名实体识别
    1)动机:
    中文命名实体识别的标注的数据集规模比较小,两个比较常用的数据集微博数据集和MSRA数据集,样本数分别为 1.3k和45k。相比之下,中文分词任务的标注数据较为丰富, 并且这两个任务之间也有相似之处。我们可以使用分词的数据辅助提高实体识别的性能;但是,这两个任务之间也有不同之处,例如,中文分词将 “休斯顿机场”分为“休斯顿”和“机场”,而命名实体识别任务将它看做一个整体。所以,需要利用共享的信息也需要过滤掉中文分词带来的噪音问题
    在这里插入图片描述
    Pengfei Cao, Adversarial Transfer Learning for Chinese Named Entity Recognition with Self-Attention Mechanism, EMNLP-2018
    此外,学习词与词之间依赖关系有助于预测实体类型。
    在这里插入图片描述
    2)模型结构
    该模型为实体识别任务和分词任务分别分配一个私有的双向LSTM结构, 用来提取这两个任务私有的特征,这两个任务也会共享一个双向 LSTM,用来提取这两个任务共有的特征,将私有特征和共有特征融 合进行标签预测
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    3)模型流程
    第一步:将句子中的每个字都转化成向量表示;
    第二步:分别用命名实体 识别和中文分词私有的双 向LSTM提取特征,用它们共享的双向LSTM提取共享 的特征;
    第三步:利用自注意力机制来捕获长距离依赖;
    第四步:使用一个判别器来判断共享的LSTM提取的特征来自命名实体识别还是中文分词;
    第五步:使用条件随机场 (CRF)来进行解码

  • 融入词典的命名实体识别
    1)动机:
    基于字级别预测的模型无法利用到词序列信息,而词序列信息非常重要。例如:“南京市长江大桥”,词信息“长江大桥”、“长 江”和“大桥”,有助于消解人名歧义“江大桥”;基于词级别预测的模型(先分词,再识别实体)虽然可以利用词序列信息,但是会引入分词的错误,造成误差累积
    Yue Zhang, Chinese NER Using Lattice LSTM, ACL-2018
    2)模型结构:
    提出了一个Lattice LSTM的模型:以字级别的LSTM+CRF模 型为基础,通过Lattice LSTM表示句子中的单词,从而将潜在的词汇信息融入到基于字符的LSTM+CRF中。
    例如,当编码“市”的时候,不仅利用到字符“市”的信息,还利用到单词“南京市”的信息。
    在这里插入图片描述

  • NER小节
    1)受限于训练语料规模,系统的自适应能力不强
    网页信息:不规范、存在很多噪音,有些根本就不构成自然语言句子,因此通常的命名实体识别模型所依赖的上下文特征发生了明显变化,使得识别性能剧烈下降
    2)类别数限定,不满足实际的应用
    3)需要开放域实体抽取。实体类型更多、更细,而且有些实体类别是未知、或者是随时间演化的
    4)基于深度学习的分词和命名实体识别

4. 细粒度实体分类(entity typing)

  • 背景
    传统的命名实体的三大类、七小类远远不能满足需求,在知识图谱构建和很多自然语言处理任务中,细粒度的实体类别包含了更多的知识,有助于相应任务性能的提升。
    例如,产品名(如:华为Mate10)、疾病名(如:非典型 肺炎)、赛事名(如:2018年世界杯),人可以细分为艺 人、运动员、教师、工程师等,艺人又可以分为相声演员、 影视演员、歌手、主持人等。

  • 特点
    1)类别更多:相比于传统的三大类或者七小类,细粒度实体类型更多
    2)类别具有层次结构:例如传统的机构名可以进一步细分为: 学校、公司、金融机构、医院等,而医院又可以分为三甲医院、专科医院、社区医院等。

  • 难点
    1)类别的制定:如何能构建一个覆盖类别多而且具有层次结构的类别体系是细粒度实体分类应当考虑的首要问题。
    2)语料的标注:随着实体类别的增多,标注语料的难度和成 本呈指数级增长
    3)实体识别的方法:更多的类别对传统的实体识别方法带来了极大的挑战

  • 方法
    1)无监督方法:针对没有标注语料的情况
    2)有监督方法:针对有人工标注语料。包括基于特征工程的传统方法,基于神经网络的深度学习方法(主流方法)

  • 无监督方法
    华盛顿大学的KnowItAll系统是一个比较有代表性的无监督的细粒度实体抽取系统(方法类似下一节:开放域实体抽取):
    1)规则抽取:人工制定一些通用的规则模板,根据通用 模板和指定的类别去细化模板,得到初始种子,使用搜 索引擎对模板进行扩展
    2) 实体名的抽取:利用模板从互联网上抽取大规模的实体名
    3)实体名的验证:使用验证规则并结合搜索引擎对实体 名进行验证,将高置信度的实体名加入到知识库中

  • 细粒度实体分类的方法1
    1)动机:
    传统的方法严重依赖手工提取的特征和外部资源,例如词性标签、依存关系等,这种方法容易造成错误传递问题;传统的方法(比如词袋模型)不能有效地捕获到组合语义,例如:“Bill & Melinda Gates Foundation”属于 “Organization”(“Bill”, “Melinda”, “Gates”)导致模型误分“Person”类。
    Li Dong, A Hybrid Neural Model for Type Classification of Entity Mentions, IJCAI-2015(MSRC)
    2)模型结构:
    这个模型可以分为两部分,一部分是mention模型,另一部分是上下文模型。 mention模型是一个循环神经网络,用来学习mention中各个单词之间的组合语义关系。上下文模型是多层感知机,用来学习上下文特征。将这三个特 征拼接在一起进行预测。
    在这里插入图片描述

  • 细粒度实体分类的方法2
    1)动机:
    现有的方法独立地处理实体(mention)和上下文,而上下文中每个词的重要性都非常依赖于实体。
    在这里插入图片描述
    此外,现有的方法独立地处理文本和知识,忽略了知识库信息,而知识库可以提供丰富的实体关系信息。
    在这里插入图片描述
    Ji Xin, Improving Neural Fine-Grained Entity Typing with Knowledge Attention, AAAI-2018
    2)模型结构:
    该模型使用双向LSTM来提取上下文的特征,使用TransE的方法在知识 库中学习实体的向量表示,作为query向量与双向LSTM的输出做 attention操作,得到上下文表示,然后将上下文表示和实体表示融合在一起进行预测:
    在这里插入图片描述

  • 小结
    1)类别数较多,和实际的应用比较相符合
    2)数据标注困难,训练语料较少
    3)以有监督的方法为主

5. 开放域实体抽取

  • 任务介绍
    1)给定某一类别的实体实例,从网页中抽取同一类别其他实体实例,如下图中的国家:
    在这里插入图片描述
    2)开放域实体抽取可以用于构建或者扩充词典

  • 主要方法
    1)基本思路:种子词与目标词在网页中具有相同或者类似的上下文。
    Step1: 种子词->模板; Step2: 模板->更多同类实体。
    2)处理实例扩展问题的主流框架
    在这里插入图片描述
    3)利用不同数据源(例如查询日志、网页文档、知识库文档 等)的不同特点,设计方法

  • 2
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值