GeoGPT4V：几何多模态大型语言模型的开源之旅

韶忠黎Emma

于 2024-09-13 22:28:23 发布

阅读量152

点赞数 2

本文链接：https://blog.csdn.net/gitblog_07312/article/details/142232449

版权

GeoGPT4V 是一个致力于将几何学与多模态学习相结合的开源项目，其目标在于构建能够理解并解答涉及几何图形问题的大型语言模型。该模型通过几何图像生成来增强其多模态能力。项目基于Python进行开发，并利用了如Conda、pip等工具进行环境管理和包安装，确保了项目的易用性和跨平台性。

主要编程语言: Python
依赖库和技术:
- 使用了 transformers 库来处理预训练模型。
- 需要Wolfarm引擎支持几何问题的解析与生成。
- 利用JSONLine格式处理数据集。
- 包含自定义脚本用于数据准备、指令生成、图像生成和结果过滤等关键流程。

问题: 新手可能遇到的第一个挑战是正确搭建运行项目所需的环境。
解决步骤:
1. 创建一个新的Conda环境：conda create -n geogpt4v python=3.10 -y
2. 激活新环境：conda activate geogpt4v
3. 安装项目依赖：pip install -r requirements.txt

问题: 数据的准备和格式转换可能会让初学者感到困惑。
解决步骤:
1. 下载Geometry3K或GeoQA等开放数据集，或者准备自己的符合特定格式的数据。
2. 确保每个问题及答案数据对应正确的图像路径，并保存为jsonline文件格式。
3. 若使用私有数据，需调整pipeline/gen_instruction_mp.py中的construct_prompt函数以适应你的数据结构。