BabelDOC - 科研论文翻译与双语对照工具库

编程乐园

于 2025-04-29 07:15:00 发布

阅读量1.5k

点赞数 10

分类专栏： # AI 开源项目文章标签： BabelDOC paper 论文科研翻译双语对照

本文链接：https://blog.csdn.net/lovechris00/article/details/147463046

版权

AI 开源项目专栏收录该内容

197 篇文章

订阅专栏

在这里插入图片描述

本文翻译整理自：https://github.com/funstory-ai/BabelDOC

一、关于 BabelDOC

BabelDOC 是一个专注于科研论文 PDF 翻译与双语对照的开源工具库，提供命令行接口和 Python API。

在这里插入图片描述

关键功能特性

支持 PDF 科研论文的精准翻译与双语对照
提供在线服务（每月 1000 页免费额度）
支持自部署方案（通过 PDFMathTranslate）
提供命令行工具和 Python API
支持多页处理与分块翻译
丰富的 PDF 处理选项与兼容性增强功能
离线资源包管理功能

二、安装

系统要求

Python 3.12+
推荐使用 uv 工具管理环境

通过 PyPI 安装

uv tool install --python 3.12 BabelDOC
babeldoc --help

从源码安装

git clone https://github.com/funstory-ai/BabelDOC
cd BabelDOC
uv run babeldoc --help

三、使用指南

1、基本翻译命令

babeldoc --files example.pdf --openai --openai-model "gpt-4o-mini" --openai-base-url "https://api.openai.com/v1" --openai-api-key "your-api-key-here"

2、语言选项

--lang-in/-li: 源语言代码（默认: en）
--lang-out/-lo: 目标语言代码（默认: zh）

[!TIP]
当前主要支持英译中场景，其他语言组合仍在测试中

3、PDF 处理选项

--files: 指定一个或多个 PDF 文件路径
--pages: 指定翻译页数范围（如 “1,2,1-,-3,3-5”）
--split-short-lines: 强制拆分短行（可能影响排版）
--skip-clean: 跳过 PDF 清理步骤
--dual-translate-first: 双语 PDF 中将翻译页置于前面
--max-pages-per-part: 分块翻译的每块最大页数

4、翻译服务选项

--qps: 翻译服务的 QPS 限制（默认: 4）
--ignore-cache: 忽略翻译缓存强制重译
--openai: 使用 OpenAI 进行翻译
--openai-model: 指定 OpenAI 模型（默认: gpt-4o-mini）
--openai-base-url: OpenAI API 基础 URL
--openai-api-key: OpenAI API 密钥

5、输出控制

--output/-o: 指定输出目录
--debug/-d: 启用调试日志级别
--report-interval: 进度报告间隔（秒，默认: 0.1）

6、离线资源管理

# 生成离线资源包
babeldoc --generate-offline-assets /path/to/output/dir

# 恢复离线资源包
babeldoc --restore-offline-assets /path/to/offline_assets_*.zip

四、Python API

import babeldoc.high_level
babeldoc.high_level.init()

# 离线资源包管理
from pathlib import Path
import babeldoc.assets.assets
babeldoc.assets.assets.generate_offline_assets_package(Path("/path/to/output/dir"))
babeldoc.assets.assets.restore_offline_assets_package(Path("/path/to/offline_assets_package.zip"))