【0-2】基于CNN的信息抽取模型

一、什么是信息抽取?

信息抽取(Information Extraction, IE)是从自然语言文本中抽取实体、属性、关系及事件等事实类信息的文本处理技术,是信息检索、智能问答、智能对话等人工智能应用的重要基础,一直受到业界的广泛关注。(来自百度公司官方)

二、简要介绍一下基于CNN的关系抽取模型

在此之前,关系抽取领域中多采用基于机器学习的方法,这些机器学习的方法依赖于手动提取的特征。而我们手动提取的特征来自于NLP系统或工具,这些工具难免有其局限性,会带入错误,这些错误会在关系抽取的任务中传播。

于是提出了利用卷积神经网络提取特征的方法,避免了手动的特征提取,利用神经网络实现了端到端的关系抽取。

结构:
在这里插入图片描述
输入:一段话,并指明了其中的实体;
输出:一个特征向量,表明了实体间的关系;

中间层:

  1. 词嵌入
    根据预先训练好的词向量字典,将每个词语转化为对应的固定维度向量。(词向量表征了词之间的语义关系)

  2. 特征抽取
    此模型的特征抽取分为两个层面:词语和句子。
    词语级特征抽取:主要分为三个部分:该词语本身、该词语左右的词、该词语的上位词。
    什么是上位词?
    上位词,概念上外延更广的主题词。可以理解为出现频率高的超集,或者是所属类别。比如,“鲜花”的上位词是“花”,“花”的上位词是“植物”。

    这三个部分的特征与上一层的词向量进行拼接后即构成了词语级特征Y。
    句子级特征抽取
    在这里插入图片描述
    词语级特征虽然能在一定程度上表示词语之间的关系,但在关系抽取中远远不够。在关系抽取任务中,需要在具体语境下学习词语之间的关系,有时候词语之间的距离还比较远,这时需要模型表征语义特征及长距离的特征。
    为此模型设计了Convolution层,设定了两个输入:Word Feature(WF)和Position Feature(PF)。

    Word Feature: 由一定大小窗口拼接起来的特征。设输入序列经过词嵌入层后的序列为(X1,X2,…Xn),窗口大小为3,WF为 {[Xs,X1,X2],[X1,X2,X3],…[Xn-1,Xn,Xe]}

    Position Feature:记录当前词与各实体的相对距离,在此例中,输入句子有两个实体,PF向量为二维向量,一开始PF=[d1,d2]。此后还要初始化到一定维度。

    X=[WF,PF]即构成句子级特征抽取的输入,经过线性变换、最大层池化、激活函数激活后输出为向量g。

  3. 输出层
    将词语级特征与句子级特征拼接起来,为[Y,g],接入全连接层获得特征向量O,最后接入softmax层,输出实体间关系属于预定义类别的概率。

三、结语
目前基于CNN的信息抽取模型纷繁多样,有bert+CNN、DGCNN……本文中所介绍的模型属于深度学习应用于信息抽取的早期模型,如今来看,可能有许多瑕疵,比如卷积网络过于简陋,但是它为此领域做了开创性的突破,对我们日后模型的创建仍具有重要的指导意义。

延伸阅读:《Relation Classification via Convolutional Deep Neural Network》

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值