推荐参考文献元数据挖掘的几篇论文

推荐参考文献元数据挖掘的几篇论文

挖取元数据的几种方式

现阶段主要的参考文献的元数据挖掘主要有三个大的方向:

  1. 基于规则 通过人为观察的参考文献的特点进行规则的编写,优点是便于编写、简单清晰、不需要标记好的数据。缺点是准确率不是很高、规则写多了容易冲突。我主要看了这篇文章使用了分层的思想,达到了不错的效果。
  2. 基于模板为每一种格式的参考类型,形成一个模板,挖掘元数据时主要的工作就是进行模板的匹配。由于参考文献的格式太多,无法很好形成一个完整的模板库,有一定的缺陷。有兴趣的可以看看这篇文章
  3. 机器学习方式是现在参考文献挖掘准确率最好,泛化能力最好的方法。缺点就是需要大量的人工标记的数据才能达到让人满意的准确率。文中使用Bi-LSTM + CRF模型进行参考文献的元数据的挖掘,得到了较好的结果。

文中所介绍的方法有兴趣的同学可以去复现一下,效果基本上都能达到90%以上,能够基本上解决参考文献元数据挖掘的问题。

  • 1
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值