Grobid: 从学术文献中提取信息的机器学习软件

GROBID(或GROBID,但不是GROBID或GROBID)是指书目数据的生成。

GROBID是一个机器学习库,用于将PDF等原始文档提取、解析和re-structuring为结构化的XML/TEI编码文档,特别关注技术和科学出版物。最初的发展始于2008年作为一种爱好。2011年,该工具已在开源环境中提供。从一开始,GROBID的工作就一直是一个稳定的附带项目,并有望继续下去。

提供以下功能:

  • 从PDF格式的文章中提取和解析标题。这里的摘录包括通常的书目信息(例如标题、摘要、作者、隶属关系、关键字等)。
  • 参考文献从PDF格式的文章中提取和解析,大约0.85f-score,在一个独立的PubMed中心集1943 PDF中包含90125个参考文献。涵盖了所有常见的发布元数据(包括DOI)。
  • 参考文献的全部参考文献和参考文献。引文上下文解析的准确度约为0.75f-score(这既对应于引文标注的正确识别,又与完整的参考文献正确关联)。
  • 独立解析引用(大约0.89f-score)。
  • 名称解析(例如,人名、名字、中间名、etc.),尤其是标题中的作者姓名,以及参考文献中的作者姓名(两种不同的模型)。
  • 从属关系和地址块的解析。
  • 解析日期,ISO标准化的日、月、年。
  • 从PDF文章中进行全文提取和结构化,包括用于整个文档分段的模型和用于文本正文结构的模型(段落、节标题、参考编号、图、表等)。
  • 使用biblio-glutton服务或crossrefrestapi合并/解析提取的书目参考。在这两种情况下,DOI分辨率性能都高于PDF提取的0.95f-score。
  • 19
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值