DeepFigures-Open 开源项目教程

DeepFigures-Open 开源项目教程

deepfigures-openCompanion code to the paper "Extracting Scientific Figures with Distantly Supervised Neural Networks" 🤖项目地址:https://gitcode.com/gh_mirrors/de/deepfigures-open

项目介绍

DeepFigures-Open 是一个用于从科学论文中提取图表的开源项目。该项目基于深度神经网络,旨在自动识别和提取PDF文档中的图表及其相关信息。DeepFigures-Open 是论文 "Extracting Scientific Figures with Distantly Supervised Neural Networks" 的配套代码。

项目快速启动

环境准备

  1. 克隆项目仓库

    git clone https://github.com/allenai/deepfigures-open.git
    cd deepfigures-open
    
  2. 下载模型权重

    • 这里下载权重文件的 tarball。
    • 解压并放置 weights/ 目录到项目根目录。
  3. 设置环境变量

    • 编辑 deepfigures/settings.py 文件,设置 TENSORBOX_MODEL 为权重目录路径。
  4. 编译 pdffigures2

    git clone https://github.com/allenai/pdffigures2
    cd pdffigures2
    sbt assembly
    mv target/scala-2.11/pdffigures2-assembly-0.0.12-SNAPSHOT.jar ../bin/
    cd ..
    rm -rf pdffigures2
    

运行示例

  1. 生成训练数据

    python manage.py generatearxiv
    
  2. 提取图表

    python manage.py detectfigures --pdf-path=/path/to/your/pdf
    

应用案例和最佳实践

应用案例

DeepFigures-Open 可以广泛应用于科研领域,例如:

  • 自动化文献整理:自动提取文献中的图表,加速文献综述过程。
  • 数据挖掘:从大量科学论文中提取图表数据,用于进一步分析和研究。

最佳实践

  • 定期更新模型:随着新论文的发布,定期更新训练数据和模型,以保持提取准确性。
  • 多模型融合:结合其他图表识别模型,提高图表提取的准确率和鲁棒性。

典型生态项目

pdffigures2

pdffigures2 是一个用于从PDF文档中提取图表和标题的工具。DeepFigures-Open 依赖于 pdffigures2 进行图表标题的提取。

TensorBox

TensorBox 是一个基于深度学习的对象检测框架,DeepFigures-Open 使用了 TensorBox 的模型进行图表的识别和定位。

通过这些生态项目的结合,DeepFigures-Open 提供了一个完整的图表提取解决方案。

deepfigures-openCompanion code to the paper "Extracting Scientific Figures with Distantly Supervised Neural Networks" 🤖项目地址:https://gitcode.com/gh_mirrors/de/deepfigures-open

  • 24
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

翟珊兰

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值