大模型论文 | 清华大学研究揭示，大模型更需显式COT，隐式COT效果逊色

本文链接：https://blog.csdn.net/m0_56255097/article/details/144856920

1. LLMs Do Not Think Step-by-step In Implicit Reasoning

在这里插入图片描述

众所周知，思维链（Chain-of-Thought, CoT）能够显著提升大规模语言模型（LLMs）在处理复杂任务时的表现。然而，由于它也带来了较慢的推理速度和更高的计算成本，许多研究尝试使用隐式CoT方法，这种做法不需要模型明确生成中间步骤。但隐式CoT与典型的显式CoT方法之间的效果仍存在差距。这让我们产生了一个疑问：隐式CoT真的等同于显式CoT吗？因此，在这项研究中，我们通过实验来探讨这个问题。当模型执行隐式CoT时，我们从其隐藏状态中探查了中间步骤的信息。结果令人惊讶地表明，LLMs几乎不考虑中间步骤，暗示它们可能更多依赖经验而非严格的逐步推理过程。此外，我们发现LLMs的隐式推理能力是脆弱且不稳定的，这再次证实了为了有效支持复杂任务，显式CoT的必要性。

论文: https://arxiv.org/pdf/2411.15862

2. Low-Bit Quantization Favors Undertrained LLMs: Scaling Laws for Quantized LLMs with 100T Training Tokens

尺寸更大或训练token数较少的模型经历的量化引起的性能下降（QiD）较少；而经过大量训练token的小型模型则会遭受显著的QiD。为了深入理解这一趋势，我们在受控环境中研究了超过1500个不同大小、处于不同训练阶段（未充分训练或完全训练）的量化LLM检查点，推导出用于理解QiD与训练token数量、模型大小及位宽等因素之间关系的比例定律。

基于这些比例定律，我们提出了一种新的视角：可以利用QiD来衡量LLM的训练程度，并确定不同大小LLM达到完全训练状态所需的训练token数量。此外，我们还运用这些比例定律预测了使用100万亿token训练的不同大小LLM的量化表现。我们的预测表明，未来那些预计用超过100万亿token进行训练的模型，在采用低比特量化后的表现可能不尽如人意。这为低比特量化的未来发展提出了潜在挑战，并强调了在评估低比特量化研究成果时需要关注模型的训练程度的重要性。

论文: https://arxiv.org/pdf/2411.17691

3. VisualLens: Personalization through Visual History

我们假设用户的视觉历史，即反映其日常生活的图片，能够提供对其兴趣和偏好的宝贵见解，并可用于个性化服务。在实现这一目标的过程中面临诸多挑战，其中最主要的挑战是视觉历史中的多样性和噪声问题，这些图像可能与推荐任务无关、不一定反映出用户的兴趣，甚至可能与偏好无关。现有的推荐系统要么依赖于特定任务的用户交互日志（例如在线购物记录用于购物推荐），要么专注于文本信号。为此，我们提出了一种新颖的方法——VisualLens，它能够提取、过滤并精炼图像表示，并利用这些信号进行个性化推荐。

为了验证我们的方法，我们创建了两个新的基准测试集，包含与任务无关的视觉历史数据。实验结果表明，在Hit@3指标上，我们的方法相比最先进推荐系统的性能提高了5-10%，并且相对于GPT-4o提升了2-5%。这种方法为那些传统方法难以发挥作用的情境下的个性化推荐开辟了新途径。

论文: https://arxiv.org/pdf/2411.16034

4. SegBook: A Simple Baseline and Cookbook for Volumetric Medical Image\n Segmentation

在这里插入图片描述

CT 是医学影像中最受欢迎的成像方式之一。迄今为止，CT图像为体积医学分割任务提供了最大的公开数据集，涵盖了全身解剖结构。大量的全身CT图像为预训练强大的模型提供了机会，例如以监督方式预训练的STU-Net，能够分割多种解剖结构。然而，这些预训练模型在何种条件下可以转移到各种下游医学分割任务中，特别是对其他模态和不同目标进行分割，仍然不够明确。为了解决这个问题，一个大规模的基准测试对于全面评估这些条件至关重要。因此，我们收集了87个公开的数据集，这些数据集在模态、目标和样本大小上各不相同，用于评估全身CT预训练模型的迁移能力。接着，我们采用了一个代表性模型——具有多种模型规模的STU-Net，在不同模态和目标之间进行了迁移学习实验。

我们的实验结果表明：(1) 在微调过程中可能存在关于数据集大小的瓶颈效应，即小规模和大规模数据集上的改进比中等规模的数据集更为显著。(2) 基于全身CT预训练的模型展示了有效的模态迁移能力，能够很好地适应如MRI这样的其他模态。(3) 全身CT上的预训练不仅支持在结构检测中的强劲表现，也在病变检测中显示出有效性，体现了跨目标任务的适应性。我们希望这一大规模开放的迁移学习评估能指导未来体积医学图像分割领域的研究方向。