LLMs(大型语言模型)
文章平均质量分 95
大型语言模型 (LLM) 的进步彻底改变了自然语言处理领域。BERT、T5 和 ChatGPT 等模型在从文本分类到机器翻译的广泛 NLP 任务上展示了前所未有的性能。尽管表现令人印象深刻,但 LLM 的使用对许多从业者来说仍然具有挑战性。这些模型的庞大规模,再加上对其内部工作原理缺乏了解,使得从业
Sonhhxg_柒
Save your heart for someone who cares. #愿岁月清净 抬头遇见皆是柔情#
展开
-
【NLP】利用 RAG 模分块技术提升文档处理效能
有效的分块,即将文档拆分为可管理的片段的过程,对于优化 RAG 系统的检索和嵌入步骤至关重要。通过利用 SBERT 和先进的平滑和聚类技术,这种方法比传统的文档分割方法有了显著的改进。此外,我们将介绍一种新颖的主题感知分块方法,该方法利用句子嵌入来识别文档中的主题转变。传统的分割技术(从简单的基于规则的方法到高级机器学习算法)都难以识别主题转换的精确点。通过采用这种方法,RAG 系统可以在其生成的内容中实现更高的准确性和相关性,使其更有效地完成复杂且知识密集型的任务。此方法非常适合需要连贯完整思想的任务。原创 2024-07-09 11:28:24 · 937 阅读 · 0 评论 -
【NLP】LLM 和 RAG
在这里,我描述了我在过去几年中关于 RAG 系统如何发展的主要经验。分享Naive RAG、Advanced RAG 和 Modular RAG 框架之间的区别。原创 2024-04-02 16:33:38 · 2088 阅读 · 0 评论 -
【NLP】RAG 应用中的调优策略
检索增强生成应用程序的调优策略没有一种放之四海而皆准的算法能够最好地解决所有问题。本文通过数据科学家的视角审视检索增强生成(RAG)管道。它讨论了您可以尝试提高 RAG 管道性能的潜在“超参数”。与深度学习中的实验类似,例如,数据增强技术不是超参数,而是可以调整和实验的旋钮,本文还将介绍您可以应用的不同策略,这些策略本身不是超参数。本文涵盖以下按相关阶段排序的“超参数”。在RAG 管道的请注意,本文涵盖了 RAG 的文本用例。对于多模式 RAG 应用,可能需要考虑不同的因素。原创 2023-12-11 10:40:11 · 1821 阅读 · 0 评论 -
【NLP】培训LLM的不同方式
在大型语言模型(LLM)领域,存在多种具有不同手段、要求和目标的培训机制。由于它们有不同的用途,因此重要的是不要将它们相互混淆并了解它们适用的不同场景。在本文中,我想概述一些最重要的训练机制,包括预训练微调人类反馈强化学习 (RLHF)和适配器。此外,我将讨论提示的作用,提示本身不被认为是一种学习机制,并阐明提示调整的概念,它在提示和实际训练之间架起了一座桥梁。预训练预训练是最基本的训练方式,与您所知道的其他机器学习领域的训练相同。原创 2023-11-22 17:19:37 · 973 阅读 · 0 评论 -
【NLP】LLM 中 100K 上下文窗口背后的秘密:所有技巧都集中在一处
具有条件计算的 COLT5 Transformer 层的概述。人们想要申请法学硕士的重要用例之一是“将大量自定义数据放入LLM”(与公司或特定问题相关的文档、各种异构文本等)并提出有关该特定数据的问题,不是LLM在培训期间看到的一些来自互联网的抽象数据。我学到了很多东西,我希望你也学到了,现在我们可以猜测这些具有数十亿参数的大型语言模型是如何在前所未有的 65-100K 令牌上下文窗口中进行训练的。次迭代,因为上下文长度变得更大(为了简单起见,我们假设它是线性的,根据任务的不同,它可能是高估或低估)。原创 2023-11-17 11:33:13 · 1568 阅读 · 0 评论 -
【NLP】理解 Llama2:KV 缓存、分组查询注意力、旋转嵌入等
是 Meta AI 的开创性作品,作为首批高性能开源预训练语言模型之一闯入了 AI 场景。值得注意的是,,尽管其尺寸只是其一小部分。您无疑听说过 LLaMA 令人印象深刻的性能,但您是否想知道是什么让它如此强大?图 1:原始 Transformer 和 LLama 之间的架构差异检查图 1 揭示了从原始 Transformer 到突破性的 LLaMA 架构的深刻转变。LLaMA 2.0 牢固地植根于 Transformer 框架的基础,但它引入了独特的创新——SwiGLU和。原创 2023-11-13 13:58:56 · 3937 阅读 · 0 评论 -
【NLP】大型语言模型,ALBERT — 用于自监督学习的 Lite BERT
介绍近年来,大型语言模型的发展突飞猛进。BERT 成为最流行、最高效的模型之一,可以高精度地解决各种 NLP 任务。BERT 之后,一系列其他模型随后出现,也表现出了出色的效果。显而易见的趋势是,。深度学习研究表明,此类技术通常会带来更好的结果。不幸的是,机器学习世界已经解决了有关法学硕士的几个问题,可扩展性已成为有效训练、存储和使用它们的主要障碍。因此,最近开发了新的LLM来解决可扩展性问题。在本文中,我们将讨论 2020 年发明的 ALBERT,其目标是显着减少 BERT 参数。原创 2023-11-13 10:49:58 · 825 阅读 · 1 评论 -
【AI】生成模型变得简单:了解它们的工作原理和不同类型
这些模型是创意人工智能的核心,它们有能力生成各种内容,从栩栩如生的图像和引人入胜的文本到令人着迷的音乐和创新的艺术作品。在这篇博文中,我们将踏上探索生成模型的迷人世界的旅程,揭开其复杂的内部运作机制并了解其非凡的潜力。生成器的目标是生成与真实数据无法区分的数据,而鉴别器的任务是成为区分真实数据和生成数据的专家。例如,在文本生成中,每个单词都是根据其前面的单词生成的。我们将深入研究生成模型的内部工作原理,提供可供使用的模型列表,讨论它们的挑战和局限性,并探索有望突破人工智能创造力界限的令人兴奋的未来趋势。原创 2023-11-10 11:11:43 · 1085 阅读 · 0 评论 -
【NLP】DeepSpeed-FastGen:通过 MII 和 DeepSpeed-Inference 为LLM生成高通量文本
一、简介GPT-4 和 LLaMA 等大型语言模型 (LLM) 已成为服务于各个级别的人工智能应用程序的主要工作负载。从一般聊天模型到文档摘要,从自动驾驶到软件堆栈每一层的副驾驶,大规模部署和服务这些模型的需求猛增。虽然 DeepSpeed、PyTorch 等框架可以在 LLM 训练期间定期实现良好的硬件利用率,但这些应用程序的交互性和开放式文本生成等任务的较差算术强度已成为现有系统中推理吞吐量的瓶颈。为此,由 PagedAttention 提供支持的和等研究系统显着提高了 LLM 的推理性能。翻译 2023-11-10 11:00:29 · 1504 阅读 · 2 评论 -
【LLM】低成本进行半天的训练可产生与主流大型模型、开源且无商业的特定领域 LLM 解决方案类似的结果
在常见的英语评测排名中可以观察到,在MMLU排名中,Colossal-LLaMA-2-7B-base在低成本持续预训练的支持下,克服了灾难性遗忘的问题。用户只需要上传自己的数据进行微调,并且可以将微调后的模型以API的形式部署。因此,在兼顾训练质量和效率的情况下,经过大量实验,Colossal-AI团队决定将LLaMA-2的词汇量从原来的32,000个单词扩大到69,104个。纵观整个训练损失记录,很明显,在利用 Colossal-AI 系统的成本效益功能的同时,模型的收敛性也得到了很好的保留。翻译 2023-09-27 17:06:41 · 376 阅读 · 0 评论 -
【LLM】如何使用单个GPU 微调 Llama2
自然语言处理领域通过 ChatGPT 等大型语言模型 (LLM) 取得了令人难以置信的进步。然而,这些模型都有其局限性。他们可能会提出隐私问题,遵守一套固定的规则,并仅限于最后一次培训的日期。PaLM 和 GPT-3.5 等预训练 LLM 的另一个限制不是。这意味着开发人员和研究人员无法访问模型的内部工作原理,从而限制了他们根据特定用例微调和定制模型的能力。幸运的是,新时代已经到来,是Meta推出的开源LLM,它允许,减轻隐私问题并实现个性化的AI体验。此外,创新的。原创 2023-09-14 09:36:40 · 1994 阅读 · 3 评论 -
【LLM】微调LLM:LoRA 还是全参数?Llama 2 的深入分析
在本文中,我将全参数微调与 LoRA 进行比较,并回答有关这两种技术的优缺点的问题。使用 LoRA 涉及服务效率和模型质量之间的权衡,这根据手头的具体任务而变化。此外,我还提供有关如何通过智能提示技术稳定 LoRA 训练的见解。进一步表明,采用较低的学习率可以提高所得模型检查点的可靠性。近几个月来,开源LLM与 OpenAI 的专有模型展开了一场竞赛。提高开源 LLM 性能的一种流行策略是全参数微调。在该方法中,所有模型的参数都被优化。原创 2023-09-08 14:35:34 · 3177 阅读 · 2 评论 -
【NLP】LangChain 如何构建自定义知识聊天机器人
现在,解释这部分内容将会很广泛,所以这里有一个简单的例子,说明如何在 LangChain 中使用 Python 代理来解决一个简单的数学问题。为了与我们的法学硕士进行交互,我们将实例化 OpenAI 的 GPT 模型的包装器。在本文中,我将向您介绍 LangChain,并向您展示如何将其与 OpenAI 的 API 结合使用来创建这些改变游戏规则的工具。但它真正的亮点在于将其与前面讨论的矢量存储结合使用。剩下要做的就是结合我们所学到的知识来创建我们的特定用例——为我们提供专门的人工智能“代理”。原创 2023-09-04 14:43:34 · 746 阅读 · 0 评论 -
【NLP】图神经网络解释以及如何使用 PyTorch 使用
通过整合文本数据中固有的结构依赖性,GNN 提供了一种有前途的方法来处理复杂的 NLP 任务,例如文本分类。通过利用 GNN 的力量,我们可以开辟理解和分析文本数据的新途径,从而推动各种 NLP 应用的进步。结合 GNN 和 PyTorch 的优势,可以创建复杂的模型,有效捕获文本数据的结构特征,从而实现更准确、更稳健的文本分类。例如,在社交网络中,节点可以代表个人,边可以代表他们之间的友谊。GNN 提供了一种很有前途的方法来利用基于图的表示并捕获文本数据中的结构依赖性,从而提高各种 NLP 任务的性能。原创 2023-07-27 08:49:54 · 494 阅读 · 0 评论 -
【NLP】通过迁移学习加速 AI 模型训练
迁移学习是一种机器学习方法,涉及利用从一项任务中获取的知识来提高另一项不同但相关的任务的性能。例如,如果我们训练一个模型来识别图片中的背包,我们就可以用它来识别太阳镜、帽子或桌子等物体。迁移学习背后的主要思想是利用模型通过标记数据解决任务所知道的知识,并将这些知识应用于没有太多数据的新任务。我们不是从头开始,而是从模型从类似任务中学到的模式和信息开始。迁移学习通常用于分析图像或理解语言等任务。它很有帮助,因为它使我们能够利用预先训练的模型已经完成的艰苦工作,从而节省时间和计算资源。原创 2023-07-25 14:05:00 · 411 阅读 · 1 评论 -
【LLM】如何将开源基础模型训练成特定领域的LLM?
基础模型”一词是由斯坦福大学研究人员提出的,用于描述新型机器学习模型。这些模型不是为图像识别等特定任务而设计的,而是使用大规模自我监督学习在广泛、多样化的数据集上进行训练,从而可以针对各种下游任务进行微调。与名称所暗示的相反,基础模型 (FM) 并不是人工智能的基石,也不暗示 AGI(通用人工智能)。预训练:FM 使用大量数据和强大的计算能力进行了预训练,无需进一步训练即可使用。泛化:与针对特定任务的传统人工智能模型不同,FM 具有多功能性,旨在解决众多任务。原创 2023-07-26 09:24:20 · 1447 阅读 · 0 评论 -
【LLM】深入剖析 GOOGLE PALM 2:全面概述
Google 最新的 AI 语言模型 PaLM 2 将提升其整个产品系列的 AI 功能,包括 Gmail、Google Docs 和 Bard。该模型在能力上与 GPT-4 等其他语言模型类似,擅长驱动AI聊天机器人、代码编写、图像分析和翻译。PaLM 2 的多语言能力将用于将 Bard 的语言支持扩展到 40 多种语言。PaLM 2 的训练融合了 100 多种语言的多语言文本,使模型能够在高级语言能力考试中达到“掌握”水平。原创 2023-07-20 08:45:17 · 2416 阅读 · 0 评论 -
【LLM】优化预训练模型:参数高效微调 (PEFT) 指南
参数高效微调(PEFT)是自然语言处理(NLP)中使用的一种技术,用于提高预训练语言模型在特定下游任务上的性能。它涉及重用预训练模型的参数并在较小的数据集上对其进行微调,与从头开始训练整个模型相比,这可以节省计算资源和时间。PEFT 通过冻结预训练模型的某些层并仅微调特定于下游任务的最后几层来实现这种效率。这样,模型就可以以更少的计算开销和更少的标记示例来适应新任务。尽管 PEFT 是一个相对新颖的概念,但自从引入迁移学习以来,更新最后一层模型已经在计算机视觉领域得到实践。原创 2023-07-17 16:59:42 · 5319 阅读 · 1 评论 -
【LLM】2023 年最值得考虑的 10 个最强大语言模型
LLaMA 衍生出许多不同的模型;LaMDA AI 代表对话应用程序的语言模型,是 Google 开发的一种会话式大语言模型 (LLM),作为基于对话的应用程序的基础技术,可以生成人类发音的语言。Google Transformer 研究项目的创新之一是 LaMDA,这是一项自然语言处理方面的工作,是多种语言模型的基础,其中包括 ChatGPT 背后的技术 GPT-3。这种开放性促进了人工智能社区内的协作和创新,使个人和组织能够在现有模型的基础上构建,创建新的应用程序,并为人工智能技术的整体进步做出贡献。原创 2023-07-19 08:48:21 · 961 阅读 · 0 评论 -
【LLM】Falcon LLM:开源 LLM 的新王
作为目前最好的开源模型,Falcon 摘得了 LLaMA 桂冠,人们惊叹于它强烈优化的架构、具有独特许可证的开源,并且有两种尺寸可供选择:40B 和 7B 参数。RefinedWeb 数据集建立在 CommonCrawl 之上,显示出的模型比在精选数据集上训练的模型具有更好的性能。该团队经历了彻底的过滤阶段,以删除机器生成的文本和成人内容以及任何重复数据删除,以生成包含近 5 万亿个令牌的预训练数据集。为了接受 1 万亿代币的训练,需要 AWS 上的 384 个 GPU,历时两个多月。原创 2023-07-17 15:45:09 · 553 阅读 · 0 评论 -
【NLP】GPT-4 和 ChatGPT 要点
想象一个世界,您可以像与朋友一样快速地与计算机进行交流。那会是什么样子?您可以创建哪些应用程序?这就是 OpenAI 正在利用其 GPT 模型帮助构建的世界,为我们的设备带来类人的对话功能。作为人工智能 (AI) 的最新进展,GPT-4 和 ChatGPT 是经过大量数据训练的大型语言模型 (LLM),使它们能够以非常高的准确度识别和生成类似人类的文本。这些人工智能模型的影响远远超出了简单的语音助手。原创 2023-07-14 10:26:59 · 443 阅读 · 0 评论 -
【NLP】文本聚类和主题建模
够了!这是实践的文章,所以终于到了一些实践编码的时候了。# 实例化我们的主题模型# 将我们的主题模型拟合到文档列表中然而,BERTopic 众所周知的模块化性以及我们迄今为止已经可视化的模块化性也可以通过编码示例来可视化。您可能已经注意到,大多数导入(例如 UMAP 和 HDBSCAN)都是默认 BERTopic 管道的一部分。# 步骤 1 - 提取嵌入(蓝色块)# 步骤 2 - 降低维度(红色块)# 步骤 3 - 聚类减少嵌入(绿色块)# 第 4 步 - 对主题进行标记(黄色块)原创 2023-07-11 08:49:20 · 1583 阅读 · 0 评论 -
【LLMs】关于LLMs的语义搜索
享受设置新的语义搜索系统的乐趣,一个完全运行的 FastAPI 应用程序以及如何部署它的说明 - 并根据你的内心内容进行实验以尝试实现这一点尽可能地处理您的特定领域数据。一种流行的方法是采用 BERT 的双编码器,这是一种强大的基于深度学习的算法,已被证明可以在一系列自然语言处理任务上产生最先进的结果。OpenAI的“Embeddings”是一个强大的工具,可以快速提供高质量的向量,但它是一个闭源产品,这意味着我们对其实现和潜在偏差的控制有限。原创 2023-06-29 09:38:25 · 353 阅读 · 3 评论 -
【NLP】Llama & Alpaca大模型
Llama是一款基于GPT-3模型的自然语言处理框架,它可以支持中文,但需要使用中文训练数据来微调模型。Llama提供了一些预训练的语言模型,例如GPT-3和T5等,可以选择其中一个作为中文微调的起点。同时,Llama还提供了一些针对中文任务的微调任务,例如文本分类、命名实体识别、文本生成等,可以根据具体的任务需求来选择合适的微调任务。在准备中文训练数据时,可以使用公开的中文文本语料库,如人民日报、维基百科等。需要将这些文本转换成Llama所需的格式,并将其划分为训练集、验证集和测试集。原创 2023-05-23 11:02:37 · 3805 阅读 · 0 评论 -
【LLMs】第 1 章:大型语言模型概述
大型语言模型(LLM) 是通常(但不一定)源自 Transformer 架构的 AI 模型,旨在理解和生成人类语言、代码等。这些模型在大量文本数据上进行训练,使它们能够捕捉人类语言的复杂性和细微差别。LLM 可以执行范围广泛的语言任务,从简单的文本分类到文本生成,具有很高的准确性、流畅性和风格。在医疗保健行业,LLM 被用于电子病历 (EMR) 处理、临床试验匹配和药物发现。在金融领域,LLM 被用于欺诈检测、金融新闻的情绪分析,甚至交易策略。法学硕士还通过聊天机器人和虚拟助手用于客户服务自动化。原创 2023-05-10 16:40:20 · 1266 阅读 · 0 评论