推荐参考文献元数据挖掘的几篇论文
挖取元数据的几种方式
现阶段主要的参考文献的元数据挖掘主要有三个大的方向:
- 基于规则 通过人为观察的参考文献的特点进行规则的编写,优点是便于编写、简单清晰、不需要标记好的数据。缺点是准确率不是很高、规则写多了容易冲突。我主要看了这篇文章使用了分层的思想,达到了不错的效果。
- 基于模板为每一种格式的参考类型,形成一个模板,挖掘元数据时主要的工作就是进行模板的匹配。由于参考文献的格式太多,无法很好形成一个完整的模板库,有一定的缺陷。有兴趣的可以看看这篇文章
- 机器学习方式是现在参考文献挖掘准确率最好,泛化能力最好的方法。缺点就是需要大量的人工标记的数据才能达到让人满意的准确率。文中使用Bi-LSTM + CRF模型进行参考文献的元数据的挖掘,得到了较好的结果。
文中所介绍的方法有兴趣的同学可以去复现一下,效果基本上都能达到90%以上,能够基本上解决参考文献元数据挖掘的问题。