- 博客(743)
- 资源 (1)
- 收藏
- 关注
原创 [论文笔记] MIXTURE-OF-SKILLS: Learning to Optimize Data Usage for Fine-Tuning Large Language Models
尝试:根据当前策略尝试做菜(训练模型)。反馈:收集做菜的结果(模型表现)。分析:分析哪些食材(数据集)有用,哪些需要调整。调整:根据分析结果调整食材的使用策略(数据采样概率)。迭代:重复这个过程,直到找到最佳策略。通过这种动态调整和持续优化的方法,MOS能够有效地提升大型语言模型在特定任务上的性能。
2024-09-20 17:13:33 436
原创 [论文笔记] Skywork-Math: Data Scaling Laws for MathematicalReasoning in Large Language Models
本文研究了可能提升大型语言模型(LLM)数学推理能力的潜在因素。我们认为,
2024-09-10 10:51:20 126
原创 [论文笔记] LLM大模型剪枝篇——1、调研 LLM Pruning and Distillation in Practice: The Minitron Approach
作者是 Sharath Turuvekere Sreenivas, Saurav Muralidharan, Raviraj Joshi, Marcin Chochowski, Mostofa Patwary, Mohammad Shoeybi, Bryan Catanzaro, Jan Kautz 和 Pavlo Molchanov。论文发表于 2024 年 8 月 27 日,是关于如何通过剪枝和蒸馏技术压缩大型语言模型(LLM)的研究。
2024-09-07 22:32:52 109
原创 [linux] 报错 ModuleNotFoundError: No module named ‘llama‘
【代码】[linux] 报错 ModuleNotFoundError: No module named 'llama'
2024-09-06 17:05:04 460
原创 [论文笔记] LLM大模型剪枝篇——2、剪枝总体方案
2、对前N%冗余层,直接删除full layer。N=20(N:剪枝崩溃临界点,LLaMA2在45%,Mistral-7B在35%,Qwen在20%,Phi-2在25%)对后(P-N)%冗余层,删除attention layer。1、基于BI分数选择P%的冗余层,P=60~80。1、定向结构化剪枝:最优子结构。根据剪枝后效果决定是否修复训练。剪枝目标:1.5B —> 100~600M。
2024-09-06 11:59:38 290
原创 [论文笔记] Early Weight Averaging meets High Learning Rates for LLM Pre-training 早期大学习率的权重平均 加速收敛
问题背景:训练大语言模型非常耗时和昂贵。研究人员希望找到一种办法,能在保持训练预算不变的前提下,加快训练进度,同时提升模型的效果。主要策略:他们使用了权重平均的技巧,也就是定期对模型在不同时间点的参数进行平均,类似于给多个版本的模型做“投票”,来获得一个表现更好的最终版本。这种平均操作可以帮助模型更快地收敛,并提高最终的泛化能力(即模型在新数据上的表现)。学习率的影响:论文特别强调,在较高的学习率下,权重平均的效果更加显著,特别是当这些检查点之间的间隔较大时,模型能获得更大的提升。实验验证。
2024-09-04 15:48:25 57
原创 [论文笔记] t-SNE数据可视化
这张图展示了使用t-SNE算法对高维数据进行降维后的2D散点图。不同颜色的点代表不同类别的数据,展示了t-SNE如何在降维过程中尽可能保持数据点之间的距离关系。可以看到,部分数据点聚集得较为紧密,表示它们在高维空间中有相似的特征,而其他点分布较为分散。t-SNE是一种用于数据降维和可视化的技术,它的作用是将原本在高维空间中的复杂数据压缩到低维空间,同时尽可能保留数据点之间的距离关系。t-SNE算法将高维数据映射到2D空间后的坐标。
2024-09-04 15:12:11 341
原创 [论文笔记]大模型微调数据配比策略
1)【数据规模的影响】在数学推理和代码编写任务上,扩大训练数据量可以明显提高模型效果;2)【单一数据源vs混合数据源】数据总量比较小时,在数学推理、代码编写、通用问答三个任务上,混合数据源的效果优于单一数据源;3)【数据配比的影响】只有当异源数据在格式和内容上差异非常大时,数据配比几乎不产生负面影响,否则会降低两个任务上的效果;2)在第二阶段,使用部分数学、代码数据,并叠加全量的通用问答数据混合微调模型A,得到模型B;1)在第一阶段,使用数学和代码两个垂直领域的数据混合微调基座模型,得到模型A;
2024-09-04 14:39:02 629 1
原创 [论文笔记] Cost-Effective Hyperparameter Optimization for Large Language Model Generation 大型语言模型生成推理超参优化
Chi Wang1, Susan Xueqing Liu2, Ahmed H. Awadallah11微软研究院,雷德蒙德2史蒂文斯理工学院 大型语言模型(LLMs)因其生成能力引发了广泛关注,催生了各种商业应用。使用这些模型的高成本驱使应用构建者在有限的推理预算下最大化生成的价值。本文研究了优化推理超参数的方法,如响应数量、温度和最大tokens,这些参数显著影响了文本生成的效用/成本。我们设计了一个名为EcoOptiGen的框架,该框架利用经济型超参数优化和基于成本的剪枝策略。我们在GP
2024-09-04 12:03:59 325
原创 [论文笔记]Data Mixing Laws: Optimizing Data Mixtures by Predicting Language Modeling Performance 数据混合定律
这项研究为大型语言模型的预训练数据混合提供了一种新的定量优化方法,通过数据混合定律和预测管道,可以在不进行大规模训练的情况下预测和优化模型性能,这对于提高模型效率和降低计算成本具有重要意义。
2024-09-04 11:09:52 109
原创 [论文笔记] LLM大模型剪枝篇——1、调研
LLaMA2在剪枝时,跳过ffn和跳过full layer的效果差不多。相比跳过ffn/full layer,跳过attention layer的影响会更小。跳过attention layer:7B/13B从100%参数剪枝到66%,平均指标只下降1.7~1.8pp。跳过ffn:7B/13B从100%参数剪枝到66%,平均指标下降了12.2~15.1pp。跳过full later:7B/13B从100%参数剪枝到66%,平均指标下降了12.2~13pp。
2024-09-02 16:05:33 396
原创 [论文笔记] LLaVA
把 Image + Instruction 给到 LLaVA,把 GT 的 Image description 和 Instruction 给到 Text-only 的 GPT-4。如图中所示,对于每张图片都会生成一份多轮对话数据,包含 query 和 answer 部分,整体组织成一个序列 (q1, a1, q2, a2, qT, aT),所有的 answer 作为模型回答,第一轮指令随机选择 (q1, 图片) 或者 (图片, q1),后面就直接使用对应轮次 qT 了。Projection:使用。
2024-09-02 15:48:57 319
原创 [论文笔记] LLM-ICL论文:AI模型对prompt格式&分隔符的敏感性——结构化Prompt格式
又见惊雷,结构化Prompt格式小小变化竟能让LLM性能波动高达76%,ICLR2024
2024-08-27 10:55:57 246
原创 [论文笔记] LLM-ICL可解释论文:标签词是锚点:理解语境学习的信息流视角 Label Words are Anchors
研究发现,在示例中,标签词(label words)起着锚点的作用。总的来说,这篇论文通过信息流的视角深入分析了上下文学习的工作机制,并基于此提出了一系列创新的应用方法,这些方法不仅提高了模型的性能,还增强了模型的可解释性和效率。:为了量化信息流,论文设计了两个基于显著性得分的指标(Swp 和 Spq),分别衡量从文本部分到标签词以及从标签词到目标位置的信息流的重要性。:论文的结论不仅为理解大型语言模型中的上下文学习提供了新的视角,而且为未来的研究开辟了新的方向,特别是在提高透明度和效率方面。
2024-08-27 10:46:18 680 1
原创 [论文笔记] megatron提交训练脚本报错 in validate_args assert args.micro_batch_size is not None
集群比较特殊,在data config传参的时候,不能换行。
2024-08-26 14:27:40 57
原创 [论文笔记] smolLM python-edu下载 / AWS下载 / The Stack V2下载 /Boto3 Error: botocore.exceptions.NoCredentialsE
【代码】[论文笔记] smolLM下载。
2024-08-26 14:03:40 371
原创 [论文笔记] eval-big-refactor lm_eval 每两个任务使用一个gpu,并保证端口未被使用
【代码】[论文笔记] lm_eval 每两个任务使用一个gpu,并保证端口未被使用。
2024-08-23 12:08:43 491
原创 [论文笔记] Do Llamas Work in English?On the Latent Language of Multilingual Transformers
我们提出一个问题,即在不平衡的、以英语为主的语料库上训练的多语言模型是否使用英语作为内部枢纽语言。这对于理解语言模型的功能和语言偏见的起源来说是至关重要的问题。Transformer从一层到另一层,逐步将最终提示词的输入嵌入映射到输出嵌入,从中计算下一个词的概率。关键是,我们的证据表明,抽象的“概念空间”比其他语言更接近英语,这可能对多语言模型的偏见具有重要影响。(2)在中间层中,尽管中间嵌入已经可以解码语义上正确的下一个词,但其英语版本的概率高于输入语言的版本;(1)中间嵌入最初远离输出词嵌入;
2024-08-20 11:47:58 75 1
原创 [论文笔记] LazyLLM: DYNAMIC TOKEN PRUNING FOR EFFICIENT LONG CONTEXT LLM INFERENCE(Token剪枝)
请注意,LazyLLM 允许模型在不同的生成步骤选取不同的 token 子集,即便它们中的一些可能在之前的步骤中被剪枝了。为了更好地平衡速度与准确度,该团队使用了如图 4 所示的渐进式剪枝法,从而在早期层保留更多 token,然后在 token 流向后期层的过程中逐渐减少 token 的数量。后面的实验表明,剪枝层的位置和剪枝的 token 数量不同时,也会导致性能发生变化。具体来说,对于同一 Transformer 层,随着被剪枝去掉的 token 越来越多,模型的性能也会逐渐下降。
2024-08-20 11:01:00 229
原创 [论文笔记] Data-Juicer: A One-Stop Data Processing System for Large Language Models
Data-Juicer的工作原理可以想象成一个厨房,你的数据集就是各种食材,而Data-Juicer就是一套高级的烹饪工具,帮助你将这些食材制作成美味的菜肴——也就是为大型语言模型(LLMs)准备的优质数据食谱。简而言之,Data-Juicer是一个强大的工具,它通过提供灵活、高效的数据处理能力,帮助研究人员和开发者更好地训练和优化大型语言模型。通过这些步骤,Data-Juicer帮助你从原始数据中提取最大价值,为大型语言模型制作出最优质的数据食谱。
2024-08-16 18:12:48 230 2
原创 [论文笔记] Aya Model: An Instruction Finetuned Open-Access Multilingual Language Model(多语言Aya SFT模型)
近年来大型语言模型(LLMs)的突破主要集中在少数数据丰富的语言上。那么,如何才能将这些突破扩展到非主流语言呢?我们的工作介绍了 Aya,这是一个支持101种语言的多语言生成语言模型,其中超过 50% 是低资源语言。Aya 在大多数任务上优于 mT0 和 BLOOMZ,同时覆盖的语言数量是它们的两倍。我们引入了广泛的新评估套件,扩大了 99 种语言的多语言评估的最先进水平——包括判别性和生成性任务、人类评估以及涵盖留存任务和分布内性能的模拟胜率。
2024-08-16 17:51:51 69
原创 [论文笔记] PT探路————数据篇:1、开源数据下载
———————————————参考 SFT 脚本(aya)—————————————————————————————参考 SFT 脚本(aya)—————————————————
2024-08-16 14:57:44 49
原创 [论文笔记] 模型eval结果画图 jupyter
对不同的后预训练模型的检查点在不同benchmark上的eval结果,进行画图分析。并可以对每个点标注具体数值。
2024-08-15 12:01:03 53
原创 [论文笔记] 大模型参数量计算之Qwen1.5-1.8B示例
总参数量 = Embeddings 参数量 + Transformer Encoder 参数量 + FFN 参数量 = 938,113,536 + 861,397,248 + (2048 × 5504 + 5504 × 2048) = 1,800,000,000 (1.8B)使用 SILU 激活函数(Sigmoid-Weighted Linear Units)(中间层大小): 2048。(中间维度): 5504。(激活函数): SILU。决定,即 5504。计算参数量=1.8B。
2024-08-01 22:56:53 207
原创 [论文笔记] LLM 大语言模型自动化超参搜索
该论文介绍了一种基于进化策略和高斯过程代理的超参数优化方法CARBS。该方法在计算效率上进行了优化,通过期望改进的采集函数和输出变换技术,提高了优化性能。
2024-08-01 20:22:10 111 1
原创 [论文笔记] pai megatron patch: Qwen2系列 upcycling-moe
原repo在Qwen1.5系列实现了upcycling。于是,我在Qwen2系列修改upcycling。
2024-08-01 16:34:02 226
原创 [论文笔记] LLaMA3.1与Qwen2与Apple 技术报告中预训练方案对比
此外,它确保了模型生成的内容与人类价值观一致,使其有帮助、诚实且无害。与依赖大量人类监督的传统方法不同,我们的方法侧重于可扩展的对齐,最小化人类注释的需求(Cao等人,2024)。具体来说,我们研究了获取高质量的演示和偏好数据的方法,用于有监督的微调(Supervised Fine-Tuning, SFT)和从人类反馈中学习的强化学习(Reinforcement Learning from Human Feedback, RLHF),目的是在最大限度地提高数据质量和可靠性的同时,最小化人类标记的需求。
2024-07-30 17:59:54 435 1
原创 [论文笔记] DCLM1B——苹果开源1B小模型PT复现探路
数据抽样看了一下,是非常高质量的英文PT语料。🍎开源了1B小模型的权重、代码、以及数据!
2024-07-29 17:57:24 281
原创 [论文笔记] megatron踩坑 ImportError: /usr/lib64/libstdc++.so.6: version `GLIBCXX_3.4.29‘ not found
把 /megatron/core/datasets/helpers.cpython-310-x86_64-linux-gnu.so 删掉!然后检查一下makefile文件。
2024-07-26 20:41:40 593
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人