GROBID(或GROBID,但不是GROBID或GROBID)是指书目数据的生成。
GROBID是一个机器学习库,用于将PDF等原始文档提取、解析和re-structuring为结构化的XML/TEI编码文档,特别关注技术和科学出版物。最初的发展始于2008年作为一种爱好。2011年,该工具已在开源环境中提供。从一开始,GROBID的工作就一直是一个稳定的附带项目,并有望继续下去。
提供以下功能:
- 从PDF格式的文章中提取和解析标题。这里的摘录包括通常的书目信息(例如标题、摘要、作者、隶属关系、关键字等)。
- 参考文献从PDF格式的文章中提取和解析,大约0.85f-score,在一个独立的PubMed中心集1943 PDF中包含90125个参考文献。涵盖了所有常见的发布元数据(包括DOI)。
- 参考文献的全部参考文献和参考文献。引文上下文解析的准确度约为0.75f-score(这既对应于引文标注的正确识别,又与完整的参考文献正确关联)。
- 独立解析引用(大约0.89f-score)。
- 名称解析(例如,人名、名字、中间名、etc.),尤其是标题中的作者姓名,以及参考文献中的作者姓名(两种不同的模型)。
- 从属关系和地址块的解析。
- 解析日期,ISO标准化的日、月、年。<