深度学习——day26 NRP学习:基于自然语言处理的产业链知识图谱构建_毛瑞彬(2022 情报学报)

这里写目录标题

论文资源在这里

点击跳转下载

基于自然语言处理的产业链知识图谱构建_毛瑞彬(2022 情报学报)

chap1 面向产业链知识图谱构建的自然语言处理

BERT模型

BERT采用Transformer编码器作为模型主体结构,完全基于多头注意力机制实现语言建模:
Self-Atten‐tion 的

Q (query)、K (key) 和 V (value) 三个矩阵
均来自同一输入,先计算 Q 与 K 之间的乘积,再除
以尺度标度 dk;其中 dk 为一个 query 和 key 向量的
维度,利用 Softmax 操作将其结果归一化为概率分
布,再乘以矩阵 V 就得到权重求和的表示。

Multi-Head 将一个词的向量切分成 h 个维度分别计算自注意力 (Self-Attention) 进行拼接,各维度的注意力计算参数并不共享

chap2 在中文维基百科语料( BERT Base 语言模型)的基础上增加了金融领域语料,本文提出了预训练领域语言模型

基于 BERT 和领域知识的多头选择算法

1)Pre-training 层和 Fine-tuning(微调) 层:

获取输入文本的 token 向量表示,把 token 的向量表示输入 BERT 模型进行调优

2)NER(Named Entity Recognition ) 层:

对微调层 token 输出计算 NER 每个标签的得分,对预测标签序列线性链 CRF 得分进行优化,使得预测的标签序列正确概率最大

3)Relation 层:初始化实体标签向量矩阵,获取每个 token 预测标签所对应的向量,把输入 的上下文表示以及实体标签向量拼接后组成的 ,与其他词 的 单独计算所有关系类别 k 的得分,确定它的最可能的头实体以及关系。
4)

chap3 实验

1)在证券领域文本上

2)本文选择7个产业链要素,每一种人工进行分类语料标注,每个类别 10000 条,同时新增不属于这7类的10000个负样本。按照 8∶1∶1 将这份数据划分为训练集、开发集和测试集,在验证集上的评估结果如表2所示

3)行业上下游识别

制定规则和人工校正,总共积累了近 2 万条语料,对语料进行均衡
  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值