Grobid: 从学术文献中提取信息的机器学习软件

GROBID是一个开源的机器学习库,专注于从PDF等文档中提取、解析和结构化技术与科学出版物的元数据和全文。它可以提取标题、摘要、作者信息、参考文献等,并提供了Web服务API、批处理工具和多种客户端。GROBID被广泛应用于多个机构,并支持扩展以处理大量文献。
摘要由CSDN通过智能技术生成

GROBID(或GROBID,但不是GROBID或GROBID)是指书目数据的生成。

GROBID是一个机器学习库,用于将PDF等原始文档提取、解析和re-structuring为结构化的XML/TEI编码文档,特别关注技术和科学出版物。最初的发展始于2008年作为一种爱好。2011年,该工具已在开源环境中提供。从一开始,GROBID的工作就一直是一个稳定的附带项目,并有望继续下去。

提供以下功能:

  • 从PDF格式的文章中提取和解析标题。这里的摘录包括通常的书目信息(例如标题、摘要、作者、隶属关系、关键字等)。
  • 参考文献从PDF格式的文章中提取和解析,大约0.85f-score,在一个独立的PubMed中心集1943 PDF中包含90125个参考文献。涵盖了所有常见的发布元数据(包括DOI)。
  • 参考文献的全部参考文献和参考文献。引文上下文解析的准确度约为0.75f-score(这既对应于引文标注的正确识别,又与完整的参考文献正确关联)。
  • 独立解析引用(大约0.89f-score)。
  • 名称解析(例如,人名、名字、中间名、etc.),尤其是标题中的作者姓名,以及参考文献中的作者姓名(两种不同的模型)。
  • 从属关系和地址块的解析。
  • 解析日期,ISO标准化的日、月、年。<
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值