E2M 项目安装与配置指南
1. 项目基础介绍
E2M(Everything to Markdown)是一个开源项目,旨在将各种文件类型(如 doc、docx、epub、html、htm、url、pdf、ppt、pptx、mp3 和 m4a 等)转换为 Markdown 格式。该项目利用解析器和转换器的架构,为用户提供了一个灵活、开源的解决方案,非常适合需要将多种文件格式统一转换为 Markdown 的场景。
项目主要使用的编程语言是 Python。
2. 关键技术和框架
E2M 项目使用以下关键技术和框架:
- 解析器(Parser):负责解析各种文件类型,提取文本或图像数据。
- 转换器(Converter):负责将文本或图像数据转换为 Markdown 格式。
- 支持多种引擎:如 Pandoc、XML、unstructured 等,用于不同文件类型的解析。
- 支持多种模型:如 Litellm、Zhipuai 等,用于文本和图像的转换。
3. 安装和配置准备工作
在开始安装之前,请确保您的系统已安装以下软件:
- Python 3.10
- pip
- conda(推荐)
详细安装步骤
步骤 1:创建虚拟环境
首先,创建一个虚拟环境以避免污染全局 Python 环境:
conda create -n e2m python=3.10
然后,激活虚拟环境:
conda activate e2m
步骤 2:更新 pip
确保 pip 是最新版本:
pip install --upgrade pip
步骤 3:安装 E2M
有三种安装方式可供选择:
方式 1:通过 Git 安装(推荐)
pip install git+https://github.com/wisupai/e2m.git --index-url https://pypi.org/simple
方式 2:通过 pip 安装
pip install --upgrade wisup_e2m
方式 3:手动安装
git clone https://github.com/wisupai/e2m.git
cd e2m
pip install poetry
poetry build
pip install dist/wisup_e2m-0.1.63-py3-none-any.whl
步骤 4:启动 API 服务(可选)
如果需要启动 API 服务,执行以下命令:
gunicorn wisup_e2m.api.main:app --workers 4 --worker-class uvicorn.workers.UvicornWorker --bind 0.0.0.0:8000
步骤 5:配置文件(可选)
如果需要自定义配置,可以创建一个 config.yaml
文件,指定解析器和转换器的配置。以下是一个示例配置文件:
parsers:
doc_parser:
engine: "pandoc"
langs: ["en", "zh"]
docx_parser:
engine: "pandoc"
langs: ["en", "zh"]
epub_parser:
engine: "unstructured"
langs: ["en", "zh"]
html_parser:
engine: "unstructured"
langs: ["en", "zh"]
url_parser:
engine: "jina"
langs: ["en", "zh"]
pdf_parser:
engine: "marker"
langs: ["en", "zh"]
pptx_parser:
engine: "unstructured"
langs: ["en", "zh"]
voice_parser:
engine: "openai_whisper_local"
model: "large"
converters:
text_converter:
engine: "litellm"
model: "deepseek/deepseek-chat"
api_key: "your_api_key"
base_url: "your_base_url"
image_converter:
engine: "litellm"
model: "gpt-4o"
api_key: "your_api_key"
base_url: "your_base_url"
完成以上步骤后,您就可以开始使用 E2M 项目进行文件格式转换了。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考