COT
目前最常用的训练思路,通过模拟人类逐步推导答案的思维方式,将复杂推理过程分解为一系列简单、可理解的步骤。不做赘述。
针对cot格式的研究很多,看过一些论文,有的论文结论是cot在zero shot的推理上主要是数学推导起作用。另外在是否做格式化上,推理任务中,格式限制越强,模型性能越差;分类任务上,格式限制越强,模型性能越好。在我的实际验证中,通常为底线类是否违规的判断,基本上都是格式化越规范,效果越好的结论。
COT-SC
思维链自洽性。就是对同一个问题提供多种推理思路,从候选的推理思路中选择一致性答案作为最终的答案。
TOT
系统将一个问题分解,并生成一个潜在推理步骤或“思维”候选者列表。然后,对这些想法进行评估,系统会衡量每个想法产生所需解决方案的可能性。用广搜+深搜实现。from:https://www.promptingguide.ai/techniques/tot
以树的形式组织其解决问题的策略,单个树节点代表部分解决方案。基于给定的节点,思维生成器(thought generator)可以构造出一定数量的新节点,然后用状态评估器(state evaluator)为每个新节点生成相应评分。
根据用例的不同,可以使用LLM自身对输出结果进行评估,也可以利用人工评分等。