实体对齐之bert度量虚拟文档的相似度

基于Bert度量实体之间的相似度
基本思想:将实体的对齐问题转换成文本之间的相似度度量问题
准备工作:Bert的预训练模型(google提供了中文的预训练模型),实体相似度的标记文本
A. Bert的预训练模型
在这里插入图片描述
模型的输入(每个单词有三个embedding,把单词对应的三个embedding叠加)
在这里插入图片描述
(1)token embeddings表示的是词向量,第一个单词是CLS,可以用于之后的分类任务
(2)segment embeddings用来区别两种句子,因为预训练不光做LM还要做以两个句子为输入的分类任务
(3)position embeddings表示位置信息
预训练的原理:Masked LM(遮住部分单词让编码器根据上下文学习)和下一句预测(挖掘出句子之间的关系)
(使用google提供的预训练模型)
B. 实体相似度的标记文本

  1. 使用自定义的标记算法对两个知识库的部分实体文本对的关系进行标记,标记为1表示相似实体,标记为0表示不相似实体;
    标记方法详情如下:
    a.人为的将实体的相似度分为属性值之间的相似度Sim_attr和实体名称的相似度两部分Sim_name。属性值的相似度又分为数值类型属性值的相似度Sim_number和文本类型属性值的相似度Sim_text,实体1和实体2的相似度定义为Sim_entity(1,2)=αSim_name+β(γSim_number+νSim_text)。其中,文本类型属性值的相似度使用词袋模型进行度量,数值类型属性值的相似度使用集合的相似度来度量,实体名称直接采用词语之间的相似度进行度量。
  2. 领域专家对标记的实体对进行调整筛选,得到比较准确的实体相似度的标记文本。需要注意相同的实体之间的相似度能尽量接近1最好,通过这个限制条件控制并调整第一步的各个阈值。

备注:标记文本格式为“虚拟文档1,虚拟文档2,0/1”,其中虚拟文档1和虚拟文档2分别由知识库A和知识库B的实体构建

  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值