结论
先尝试问题-论证-答案中的PRM800K数据集
MathPile是个用于预训练的语料库
paper & 知乎
1 算术
例如:
2 数学文字题
2.1 问题-答案
直接给出答案
2.2 问题-方程式-答案
给出解答的方程式(过程)
2.3 问题-论证-答案
给出论证的过程(应该含有方程式)
综上,考虑到视频的可视化过程,着重问题-方程式-答案和问题-论证-答案
PRM800K is a process supervision dataset containing 800,000 step-level correctness labels for model-generated solutions to problems from the MATH dataset.
3 几何
相对于文字,几何还需要模型对形状、大小及其相互关系的空间理解。
图中蕴含很多文字中不具备的复杂信息,模型需要解析图表的信息,也就是说模型要同时理解文本和图,具备跨模态的数值推理。几何体的解答既有多模态又有逻辑推理。
或者,对于manim,可以对几何形状进行描述,从而避免输入图像prompt 那么关于几何的问题,是不是就能归类为问题-论证-答案呢??
4 自动定理证明
实现对给定推测的自动化推理证明,需要深刻理解语言+逻辑分析+广泛的知识库支持。
MINIF2F包含一系列复杂的奥林匹克数学问题, 旨在评估定理证明系统.