大模型论文 | 清华大学研究揭示,大模型更需显式COT,隐式COT效果逊色

1. LLMs Do Not Think Step-by-step In Implicit Reasoning

在这里插入图片描述

众所周知,思维链(Chain-of-Thought, CoT)能够显著提升大规模语言模型(LLMs)在处理复杂任务时的表现。然而,由于它也带来了较慢的推理速度和更高的计算成本,许多研究尝试使用隐式CoT方法,这种做法不需要模型明确生成中间步骤。但隐式CoT与典型的显式CoT方法之间的效果仍存在差距。这让我们产生了一个疑问:隐式CoT真的等同于显式CoT吗?因此,在这项研究中,我们通过实验来探讨这个问题。当模型执行隐式CoT时,我们从其隐藏状态中探查了中间步骤的信息。结果令人惊讶地表明,LLMs几乎不考虑中间步骤,暗示它们可能更多依赖经验而非严格的逐步推理过程。此外,我们发现LLMs的隐式推理能力是脆弱且不稳定的,这再次证实了为了有效支持复杂任务,显式CoT的必要性。

论文: https://arxiv.org/pdf/2411.15862

2. Low-Bit Quantization Favors Undertrained LLMs: Scaling Laws for Quantized LLMs with 100T Training Tokens

尺寸更大或训练token数较少的模型经历的量化引起的性能下降(QiD)较少;而经过大量训练token的小型模型则会遭受显著的QiD。为了深入理解这一趋势,我们在受控环境中研究了超过1500个不同大小、处于不同训练阶段(未充分训练或完全训练)的量化LLM检查点,推导出用于理解QiD与训练token数量、模型大小及位宽等因素之间关系的比例定律。

基于这些比例定律,我们提出了一种新的视角:可以利用QiD来衡量LLM的训练程度,并确定不同大小LLM达到完全训练状态所需的训练token数量。此外,我们还运用这些比例定律预测了使用100万亿token训练的不同大小LLM的量化表现。我们的预测表明,未来那些预计用超过100万亿token进行训练的模型,在采用低比特量化后的表现可能不尽如人意。这为低比特量化的未来发展提出了潜在挑战,并强调了在评估低比特量化研究成果时需要关注模型的训练程度的重要性。

论文: https://arxiv.org/pdf/2411.17691

3. VisualLens: Personalization through Visual History

我们假设用户的视觉历史,即反映其日常生活的图片,能够提供对其兴趣和偏好的宝贵见解,并可用于个性化服务。在实现这一目标的过程中面临诸多挑战,其中最主要的挑战是视觉历史中的多样性和噪声问题,这些图像可能与推荐任务无关、不一定反映出用户的兴趣,甚至可能与偏好无关。现有的推荐系统要么依赖于特定任务的用户交互日志(例如在线购物记录用于购物推荐),要么专注于文本信号。为此,我们提出了一种新颖的方法——VisualLens,它能够提取、过滤并精炼图像表示,并利用这些信号进行个性化推荐。

为了验证我们的方法,我们创建了两个新的基准测试集,包含与任务无关的视觉历史数据。实验结果表明,在Hit@3指标上,我们的方法相比最先进推荐系统的性能提高了5-10%,并且相对于GPT-4o提升了2-5%。这种方法为那些传统方法难以发挥作用的情境下的个性化推荐开辟了新途径。

论文: https://arxiv.org/pdf/2411.16034

4. SegBook: A Simple Baseline and Cookbook for Volumetric Medical Image\n Segmentation

在这里插入图片描述

CT 是医学影像中最受欢迎的成像方式之一。迄今为止,CT图像为体积医学分割任务提供了最大的公开数据集,涵盖了全身解剖结构。大量的全身CT图像为预训练强大的模型提供了机会,例如以监督方式预训练的STU-Net,能够分割多种解剖结构。然而,这些预训练模型在何种条件下可以转移到各种下游医学分割任务中,特别是对其他模态和不同目标进行分割,仍然不够明确。为了解决这个问题,一个大规模的基准测试对于全面评估这些条件至关重要。因此,我们收集了87个公开的数据集,这些数据集在模态、目标和样本大小上各不相同,用于评估全身CT预训练模型的迁移能力。接着,我们采用了一个代表性模型——具有多种模型规模的STU-Net,在不同模态和目标之间进行了迁移学习实验。

我们的实验结果表明:(1) 在微调过程中可能存在关于数据集大小的瓶颈效应,即小规模和大规模数据集上的改进比中等规模的数据集更为显著。(2) 基于全身CT预训练的模型展示了有效的模态迁移能力,能够很好地适应如MRI这样的其他模态。(3) 全身CT上的预训练不仅支持在结构检测中的强劲表现,也在病变检测中显示出有效性,体现了跨目标任务的适应性。我们希望这一大规模开放的迁移学习评估能指导未来体积医学图像分割领域的研究方向。

论文: https://arxiv.org/pdf/2411.14525


5. 如何系统学习掌握AI大模型?

AI大模型作为人工智能领域的重要技术突破,正成为推动各行各业创新和转型的关键力量。抓住AI大模型的风口,掌握AI大模型的知识和技能将变得越来越重要。

学习AI大模型是一个系统的过程,需要从基础开始,逐步深入到更高级的技术。

这里给大家精心整理了一份全面的AI大模型学习资源,包括:AI大模型全套学习路线图(从入门到实战)、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等,资料免费分享

1. 成长路线图&学习规划

要学习一门新的技术,作为新手一定要先学习成长路线图方向不对,努力白费

这里,我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。可以说是最科学最系统的学习成长路线。
在这里插入图片描述

2. 大模型经典PDF书籍

书籍和学习文档资料是学习大模型过程中必不可少的,我们精选了一系列深入探讨大模型技术的书籍和学习文档,它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础(书籍含电子版PDF)

在这里插入图片描述

3. 大模型视频教程

对于很多自学或者没有基础的同学来说,书籍这些纯文字类的学习教材会觉得比较晦涩难以理解,因此,我们提供了丰富的大模型视频教程,以动态、形象的方式展示技术概念,帮助你更快、更轻松地掌握核心知识

在这里插入图片描述

4. 2024行业报告

行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。

在这里插入图片描述

5. 大模型项目实战

学以致用 ,当你的理论知识积累到一定程度,就需要通过项目实战,在实际操作中检验和巩固你所学到的知识,同时为你找工作和职业发展打下坚实的基础。

在这里插入图片描述

6. 大模型面试题

面试不仅是技术的较量,更需要充分的准备。

在你已经掌握了大模型技术之后,就需要开始准备面试,我们将提供精心整理的大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。

在这里插入图片描述

全套的AI大模型学习资源已经整理打包,有需要的小伙伴可以微信扫描下方CSDN官方认证二维码,免费领取【保证100%免费

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值