文章介绍了多模态大语言模型(MLLMs)在解决几何问题中的应用和挑战。尽管LLMs在语言推理方面表现出色,但它们在处理几何图形时仍然存在困难,主要体现在无法准确理解几何元素及其关系。为了解决这一问题,作者提出了一个新的多模态几何数据集Geo170K,结合了几何问题的独特逻辑形式和表现方式,利用现有的数据生成技术进行增强。基于这个数据集,作者开发了G-LLaVA模型,在解决几何问题上表现出色,显著超越了现有的其他模型。
1 多模态几何数据生成框架
多模态几何数据生成框架是通过现有的几何数据集和几何问题的特征,来构建的一个多模态几何数据集。该数据集包含图像-文本配对和问题-答案对,旨在为智能体提供丰富的几何信息。数据生成过程包括提取几何问题的逻辑特征,并通过文本生成模型生成与图像匹配的描述信息。
以下是生成框架的一些简要特点:
· 几何问题特征提取:利用几何问题的独特逻辑形式和表现特点(如几何推理结构、几何元素的相互关系、几何图形的可扩展性等),对几何问题进行分析和建模。
· 生成图像-文本数据对:根据几何问题的描述,生成包含几何图形和相应文字说明的图像-文本配对。使用文本生成模型(如ChatGPT)生成描述性的图像标签和问题解答对,确保生成的文本能够准确反映图像中的几何关系。
· 生成对比性问答对:通过对几何图形进行深度解析,生成不同的问答对。这些问题可以考察几何元素的存在性、关系及图形特性。例如,检查特定点是否位于某一条线段上,或确定角度和长度之间的