2020-08-24

学习心得8.24

这周读的两篇2019年实体对齐的文章:OTEA和SEA。这两篇文章都是由阿卜杜拉国王科技大学的Shichao Pei, Lu Yu于2019年发表的(IJCAI,WWW)。同一作者同一研究领域同一年的两篇文章,因此在想法、方法、实验(代码)以及写作方面都有一些类似的地方。

针对标记数据难以获取的问题,OTEA提出从全局(group-level)分布匹配的角度去解决,这样可以减少未标记实体带来的损失。此外,作者考虑从双向进行KG的translation。并且对获得的平移矩阵M1,M2施加一个正则化器(L2,1范数),这样可以使得平移矩阵接近正交。实验证明,正则化器和双向对齐的策略都能够提升实体对齐的效果。

 

受到词向量的启发(在对单词进行编码是,词向量会更多的编码进词的频率信息而不是语义信息,显然语义信息才是我们需要的),SEA一文也在KG嵌入的过程中发现了类似的现象:度值相似的实体往往会聚集在嵌入空间的同一区域,这对实体对齐任务是有妨碍的,因为这样的嵌入可能包含的degree的信息要多过实体本身的语义信息。由此,作者提出以对抗训练的方式,减少度值对实体嵌入的影响,也就是文中的度感知的实体嵌入模型。此外针对缺少训练数据的问题,作者基于循环一致性,提出了一种半监督的训练方式。其实文中半监督的训练思想还是不难想到的,有点像无监督训练中的编码器(要善于发散思维与联想)。但是这个组件具体对任务的性能有没有提升,文中并没有做相关的实验(可能提升也不大,因为有标签数据和无标签数据对损失函数的的比重为2.5:0.25)。

 

这两文文章给自己的启发:

1.有监督的实体对齐现在多的人太多了,而无标记实体中蕴含的丰富的信息还尚未探索,因此可以尝试考虑半监督和无监督的实体对齐。

2.作者从词嵌入中的分布问题联想到KG的嵌入。那我们在平时也要注意培养自己的发散思维与联想能力,注意多学科、多研究领域之间的联系。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
这是一个 SQL 语句,用于向借阅表中插入数据。该表包含以下字段:借阅编号、读者编号、书籍编号、借阅日期、归还日期、借阅状态。每条数据表示一次借阅记录。其中借阅编号、读者编号、书籍编号、借阅日期和借阅状态是必填项,归还日期为可选项,如果借阅状态为“已还”则必须填写归还日期。 具体插入的数据如下: - 借阅编号:100001,读者编号:123413,书籍编号:0001,借阅日期:2020-11-05,归还日期:NULL,借阅状态:借阅 - 借阅编号:100002,读者编号:223411,书籍编号:0002,借阅日期:2020-9-28,归还日期:2020-10-13,借阅状态:已还 - 借阅编号:100003,读者编号:321123,书籍编号:1001,借阅日期:2020-7-01,归还日期:NULL,借阅状态:过期 - 借阅编号:100004,读者编号:321124,书籍编号:2001,借阅日期:2020-10-09,归还日期:2020-10-14,借阅状态:已还 - 借阅编号:100005,读者编号:321124,书籍编号:0001,借阅日期:2020-10-15,归还日期:NULL,借阅状态:借阅 - 借阅编号:100006,读者编号:223411,书籍编号:2001,借阅日期:2020-10-16,归还日期:NULL,借阅状态:借阅 - 借阅编号:100007,读者编号:411111,书籍编号:1002,借阅日期:2020-9-01,归还日期:2020-9-24,借阅状态:已还 - 借阅编号:100008,读者编号:411111,书籍编号:0001,借阅日期:2020-9-25,归还日期:NULL,借阅状态:借阅 - 借阅编号:100009,读者编号:411111,书籍编号:1001,借阅日期:2020-10-08,归还日期:NULL,借阅状态:借阅
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值