Sonhhxg_柒-CSDN博客

原创【NLP】LLM 和 RAG

在这里，我描述了我在过去几年中关于 RAG 系统如何发展的主要经验。分享Naive RAG、Advanced RAG 和 Modular RAG 框架之间的区别。

2024-04-02 16:33:38 1522

检索增强生成应用程序的调优策略没有一种放之四海而皆准的算法能够最好地解决所有问题。本文通过数据科学家的视角审视检索增强生成（RAG）管道。它讨论了您可以尝试提高 RAG 管道性能的潜在“超参数”。与深度学习中的实验类似，例如，数据增强技术不是超参数，而是可以调整和实验的旋钮，本文还将介绍您可以应用的不同策略，这些策略本身不是超参数。本文涵盖以下按相关阶段排序的“超参数”。在RAG 管道的请注意，本文涵盖了 RAG 的文本用例。对于多模式 RAG 应用，可能需要考虑不同的因素。

2023-12-11 10:40:11 1561

原创【NLP】如何管理大型语言模型 (LLM)

此外，LLM 编排框架提供强大的监控和错误处理机制，增强了基于 LLM 的应用程序的整体可靠性。LLM-Ops 是一个不断发展的领域。通过为 LLM 管理提供结构化且高效的方法，LLM 编排使开发人员能够构建更强大、可扩展且可靠的应用程序，利用这种尖端技术的变革力量。通过为 LLM 管理提供结构化且高效的方法，LLM 编排使开发人员能够构建更强大、可扩展且可靠的应用程序，利用这种尖端技术的变革力量。LLM 编排框架的选择取决于应用程序的特定需求、开发人员的首选编程语言以及对 LLM 管理的所需控制级别。

2023-12-07 09:56:17 1453 1

原创【NLP】GPT 模型如何工作

例如，如果您的训练数据包含单词“car”，您可以向“c”行和“a”列中的单元格添加 1，然后向“a”行和“r”中的单元格添加 1柱子。文本生成的质量再次受到算法支持的输入标记数量的限制，需要新的突破。然而，语言模型需要有一个完整的可能遇到的标记列表，而这对于整个单词来说是不可行的——不仅因为字典中有太多单词，而且因为很难跟上领域的步伐——特定术语和发明的任何新词。最后，我们描述了 OpenAI 的三个最新的基于 Transformer 的 GPT 模型、每个模型的实现方式以及如何编写使用它们的代码。

2023-11-22 17:22:38 1100

原创【NLP】培训LLM的不同方式

在大型语言模型（LLM）领域，存在多种具有不同手段、要求和目标的培训机制。由于它们有不同的用途，因此重要的是不要将它们相互混淆并了解它们适用的不同场景。在本文中，我想概述一些最重要的训练机制，包括预训练微调人类反馈强化学习 (RLHF)和适配器。此外，我将讨论提示的作用，提示本身不被认为是一种学习机制，并阐明提示调整的概念，它在提示和实际训练之间架起了一座桥梁。预训练预训练是最基本的训练方式，与您所知道的其他机器学习领域的训练相同。

2023-11-22 17:19:37 890

原创【NLP】LLM 中 100K 上下文窗口背后的秘密：所有技巧都集中在一处

具有条件计算的 COLT5 Transformer 层的概述。人们想要申请法学硕士的重要用例之一是“将大量自定义数据放入LLM”（与公司或特定问题相关的文档、各种异构文本等）并提出有关该特定数据的问题，不是LLM在培训期间看到的一些来自互联网的抽象数据。我学到了很多东西，我希望你也学到了，现在我们可以猜测这些具有数十亿参数的大型语言模型是如何在前所未有的 65-100K 令牌上下文窗口中进行训练的。次迭代，因为上下文长度变得更大（为了简单起见，我们假设它是线性的，根据任务的不同，它可能是高估或低估）。

2023-11-17 11:33:13 1001

原创【NLP】理解 Llama2：KV 缓存、分组查询注意力、旋转嵌入等

是 Meta AI 的开创性作品，作为首批高性能开源预训练语言模型之一闯入了 AI 场景。值得注意的是，，尽管其尺寸只是其一小部分。您无疑听说过 LLaMA 令人印象深刻的性能，但您是否想知道是什么让它如此强大？图 1：原始 Transformer 和 LLama 之间的架构差异检查图 1 揭示了从原始 Transformer 到突破性的 LLaMA 架构的深刻转变。LLaMA 2.0 牢固地植根于 Transformer 框架的基础，但它引入了独特的创新——SwiGLU和。

2023-11-13 13:58:56 2706

原创【NLP】大型语言模型，ALBERT — 用于自监督学习的 Lite BERT

介绍近年来，大型语言模型的发展突飞猛进。BERT 成为最流行、最高效的模型之一，可以高精度地解决各种 NLP 任务。BERT 之后，一系列其他模型随后出现，也表现出了出色的效果。显而易见的趋势是，。深度学习研究表明，此类技术通常会带来更好的结果。不幸的是，机器学习世界已经解决了有关法学硕士的几个问题，可扩展性已成为有效训练、存储和使用它们的主要障碍。因此，最近开发了新的LLM来解决可扩展性问题。在本文中，我们将讨论 2020 年发明的 ALBERT，其目标是显着减少 BERT 参数。

2023-11-13 10:49:58 647 1

原创【AI】自回归 (AR) 模型使预测和深度学习变得简单

通过为问题选择正确的工具，无论是基本的 AR 模型还是更复杂的模型，从业者都可以做出更准确的预测，并从时间序列数据中发现更深入的见解。深度学习中的自回归是指应用深度神经网络对序列数据进行建模和预测，其中序列中的当前值取决于先前的值。总体而言，自回归模型是时间序列分析和 NLP 的基本概念，为理解、预测和生成序列数据提供了强大的工具。在接下来的部分中，我们将从 AR(p) 模型的基础知识和自回归系数的作用开始，更深入地研究自回归模型的机制。自回归建模的核心是 AR(p) 模型，其中“p”代表模型的阶数。

2023-11-10 11:22:51 5057 1

原创【AI】生成模型变得简单：了解它们的工作原理和不同类型

这些模型是创意人工智能的核心，它们有能力生成各种内容，从栩栩如生的图像和引人入胜的文本到令人着迷的音乐和创新的艺术作品。在这篇博文中，我们将踏上探索生成模型的迷人世界的旅程，揭开其复杂的内部运作机制并了解其非凡的潜力。生成器的目标是生成与真实数据无法区分的数据，而鉴别器的任务是成为区分真实数据和生成数据的专家。例如，在文本生成中，每个单词都是根据其前面的单词生成的。我们将深入研究生成模型的内部工作原理，提供可供使用的模型列表，讨论它们的挑战和局限性，并探索有望突破人工智能创造力界限的令人兴奋的未来趋势。

2023-11-10 11:11:43 607

翻译【NLP】DeepSpeed-FastGen：通过 MII 和 DeepSpeed-Inference 为LLM生成高通量文本

一、简介GPT-4 和 LLaMA 等大型语言模型 (LLM) 已成为服务于各个级别的人工智能应用程序的主要工作负载。从一般聊天模型到文档摘要，从自动驾驶到软件堆栈每一层的副驾驶，大规模部署和服务这些模型的需求猛增。虽然 DeepSpeed、PyTorch 等框架可以在 LLM 训练期间定期实现良好的硬件利用率，但这些应用程序的交互性和开放式文本生成等任务的较差算术强度已成为现有系统中推理吞吐量的瓶颈。为此，由 PagedAttention 提供支持的和等研究系统显着提高了 LLM 的推理性能。

2023-11-10 11:00:29 949 1

原创【NLP】特征提取: 广泛指南和 3 个操作教程 [Python、CNN、BERT]

通过使用预先训练的 CNN 模型进行特征提取，您可以受益于该模型自动学习和捕获信息丰富的图像特征的能力。此外，随着 NLP 研究的不断发展，预训练的语言模型因其提供丰富的上下文嵌入的能力而受到欢迎，并显着提高了各种 NLP 任务的现有技术水平。深度学习模型，特别是用于图像数据的卷积神经网络 (CNN) 和用于文本等序列数据的循环神经网络 (RNN)，可以学习数据中复杂的模式和表示。总之，特征提取是数据预处理和机器学习的基本步骤，在提高模型的质量、可解释性和性能方面发挥着至关重要的作用。

2023-11-07 15:47:59 6800 3

原创【NLP】什么是语义搜索以及如何实现 [Python、BERT、Elasticsearch]

语义搜索是一种先进的信息检索技术，旨在通过理解搜索查询和搜索内容的上下文和含义来提高搜索结果的准确性和相关性。总体而言，NLP 语义搜索提供了更复杂和上下文感知的搜索功能，使其在各种应用中都很有价值，包括网络搜索引擎、企业搜索、电子商务、聊天机器人和虚拟助理，在这些应用中，理解和满足用户的意图至关重要。与传统方法相比，BERT 的上下文理解可以显着提高搜索结果的质量。自然语言处理（NLP）上下文中的语义搜索是指应用NLP技术通过理解搜索查询和正在搜索的内容的含义和上下文来增强搜索结果的准确性和相关性。

2023-10-30 11:11:06 3420 1

原创【NLP】20 个基本的文本清理技术

NLP 中的文本清理是什么？文本清理，也称为文本预处理或文本数据清理，正在准备原始文本数据并将其转换为更干净、更结构化的格式，以用于分析、建模或其他自然语言处理 (NLP) 任务。它涉及各种技术和程序，从文本文档中去除噪声、不一致和不相关信息，使数据更适合文本分析、情感分析、文本分类和机器学习等下游任务。文本清理的主要目标是什么？文本清理是任何文本分析或 NLP 项目中的关键步骤。清洗后的文本数据的质量直接影响后续分析或建模任务的准确性和有效性。

2023-10-09 17:09:14 2764 1

翻译【LLM】低成本进行半天的训练可产生与主流大型模型、开源且无商业的特定领域 LLM 解决方案类似的结果

在常见的英语评测排名中可以观察到，在MMLU排名中，Colossal-LLaMA-2-7B-base在低成本持续预训练的支持下，克服了灾难性遗忘的问题。用户只需要上传自己的数据进行微调，并且可以将微调后的模型以API的形式部署。因此，在兼顾训练质量和效率的情况下，经过大量实验，Colossal-AI团队决定将LLaMA-2的词汇量从原来的32,000个单词扩大到69,104个。纵观整个训练损失记录，很明显，在利用 Colossal-AI 系统的成本效益功能的同时，模型的收敛性也得到了很好的保留。

2023-09-27 17:06:41 272

原创【LLM】如何使用单个GPU 微调 Llama2

自然语言处理领域通过 ChatGPT 等大型语言模型 (LLM) 取得了令人难以置信的进步。然而，这些模型都有其局限性。他们可能会提出隐私问题，遵守一套固定的规则，并仅限于最后一次培训的日期。PaLM 和 GPT-3.5 等预训练 LLM 的另一个限制不是。这意味着开发人员和研究人员无法访问模型的内部工作原理，从而限制了他们根据特定用例微调和定制模型的能力。幸运的是，新时代已经到来，是Meta推出的开源LLM，它允许，减轻隐私问题并实现个性化的AI体验。此外，创新的。

2023-09-14 09:36:40 1511 3

原创【LLM】微调LLM：LoRA 还是全参数？Llama 2 的深入分析

在本文中，我将全参数微调与 LoRA 进行比较，并回答有关这两种技术的优缺点的问题。使用 LoRA 涉及服务效率和模型质量之间的权衡，这根据手头的具体任务而变化。此外，我还提供有关如何通过智能提示技术稳定 LoRA 训练的见解。进一步表明，采用较低的学习率可以提高所得模型检查点的可靠性。近几个月来，开源LLM与 OpenAI 的专有模型展开了一场竞赛。提高开源 LLM 性能的一种流行策略是全参数微调。在该方法中，所有模型的参数都被优化。

2023-09-08 14:35:34 1747 2

原创【AI】Diffusion Models

具有讽刺意味的是，扩散模型在图像中生成文本方面非常糟糕，尽管图像是根据文本提示生成的，而扩散模型可以很好地处理文本提示。“全身赛博朋克风格的雕塑，是一位年轻英俊的哥伦比亚王子半机器人，胸部开口，暴露出电路和电火花，发光的粉红色眼睛，蓝色花冠，流动的鲑鱼色丝绸，织物，猛禽。“极其详细的广角照片，大气，夜晚，反射，屡获殊荣的当代现代室内设计公寓客厅，舒适而平静，织物和纺织品，几何木雕，色彩缤纷的口音，反光黄铜和铜装饰，阅读角落，许多光源、灯具、涂油硬木地板、按颜色分类的书架、沙发、电视、书桌、植物”

2023-09-08 14:24:33 313 1

原创【NLP】信息检索变得简单、不同类型及其工作原理

信息检索模型是信息检索中使用的数学和概念框架，用于表示和描述响应用户查询从集合中检索相关文档或信息的过程。信息检索是一个动态且不断发展的领域，它深刻地影响着我们在生活的各个方面访问和利用信息的方式，从日常网络搜索到学术研究和组织决策。信息检索模型的选择取决于检索任务的具体要求和特征以及可用的数据和资源。信息检索是许多信息系统的基本组成部分，该领域正在进行的研究重点是提高检索系统的准确性和效率，特别是在当今可用的数字信息量不断扩大的背景下。选择的系统类型取决于用户和组织的具体需求和目标。

2023-09-06 15:50:45 700

原创【NLP】LangChain 如何构建自定义知识聊天机器人

现在，解释这部分内容将会很广泛，所以这里有一个简单的例子，说明如何在 LangChain 中使用 Python 代理来解决一个简单的数学问题。为了与我们的法学硕士进行交互，我们将实例化 OpenAI 的 GPT 模型的包装器。在本文中，我将向您介绍 LangChain，并向您展示如何将其与 OpenAI 的 API 结合使用来创建这些改变游戏规则的工具。但它真正的亮点在于将其与前面讨论的矢量存储结合使用。剩下要做的就是结合我们所学到的知识来创建我们的特定用例——为我们提供专门的人工智能“代理”。

2023-09-04 14:43:34 545

原创【ML】使DBSCAN 变得简单 & 如何使用 Scikit-Learn 进行 Python 教程

HDBSCAN 是“带有噪声的基于分层密度的空间聚类应用程序”的缩写，是原始 DBSCAN 算法的扩展，为基于密度的聚类添加了分层方法。它结合了层次聚类方法和基于密度的聚类方法的优点。DBSCAN（基于密度的噪声应用空间聚类）是一种流行的聚类算法，以查找任意形状的聚类及其在处理噪声方面的鲁棒性而闻名。包括 DBSCAN 在内的聚类算法为揭示数据中隐藏的结构和关系提供了宝贵的工具，这可以带来更深入的见解和更好的决策。请记住，算法的选择取决于数据集的大小、所需的聚类形状、噪声的存在以及数据的性质等因素。

2023-09-01 13:43:37 864

原创【ML】AdaBoost：实用介绍及如何使用 Python 进行分类和回归

无论您是寻求更高的准确性、对噪声的鲁棒性，还是更好地理解特征重要性，AdaBoost 的自适应增强原理都可以成为您的机器学习工具箱中的宝贵资产。尽管如此，请始终记住，任何算法的成功都取决于深思熟虑的预处理、仔细的超参数调整以及对您要解决的问题的清晰理解。AdaBoost 特别注重通过在数据的不同子集上顺序训练弱学习器（比随机猜测稍好的单个模型）的性能，并为错误分类的样本赋予更多权重。AdaBoost 背后的想法是，通过顺序关注先前弱学习器错误分类的样本，算法适应数据的特征并提高其整体预测能力。

2023-08-23 13:31:39 1238

原创【ML】Dropout：增强鲁棒性和泛化性

过度拟合的产生是由于神经网络固有的复杂性，神经网络具有学习训练数据中复杂关系的能力，包括噪声和异常值。Dropout 的集成学习性质丰富了模型捕获数据中不同模式和关系的能力，最终提高了训练和测试数据的性能。通过在单个网络中引入受控随机性和集成学习，dropout 解决了过度拟合的挑战，并有助于创建更强大和可靠的模型。在这里，我们将探讨在神经网络中使用 dropout 的一些困难，并提供有效解决这些复杂问题的见解。这些挑战提醒我们，在将 dropout 纳入我们的模型时，深思熟虑的实验和适应的重要性。

2023-08-22 16:57:59 421 1

原创【NLP】生成式人工智能简介

例如，OpenAI 开发的 GPT-3 等语言模型可以在大量文本数据上进行训练，然后用于生成不同语言的新的、连贯的且语法正确的文本（无论是在输入还是输出方面），以及从文本中提取相关特征，例如关键字、主题或完整摘要。在这样的技术背后，你可以认识到我们迄今为止在其他领域提到的许多模型——提示的语言理解、图像生成和图像生成的运动，以及人工智能作曲家制作的背景音乐。此功能有几个有趣的业务应用程序，例如生成用于训练计算机视觉模型的合成数据集、生成逼真的产品图像以及为虚拟现实和增强现实应用程序生成逼真的图像。

2023-08-17 10:12:58 763

原创了解元学习——如何利用更少的数据提高效率

未来拥有令人兴奋的可能性，包括能够适应不断变化的环境并从日益有限的数据中学习的更强大的模型。元学习，或者说学会学习，是一种机器学习方法，专注于改进学习过程，而不仅仅是学习特定的任务或问题。元学习旨在开发算法或技术，使模型能够根据学习多个相关任务的先前经验，以最少的数据和计算快速适应和学习新任务。通过关注学习过程，元学习技术使模型能够从有限的数据中学习并快速适应新任务，展现出卓越的泛化能力。元学习范式中的多种技术包括模型无关元学习 (MAML)、基于度量的元学习和记忆增强神经网络等。有哪些不同的元学习技术？

2023-08-17 08:50:13 498 1

原创【AI】生成式人工智能用例和应用

随着时间的推移，生成器变得越来越好，可以创建更逼真的图像。初创公司 Jesper.ai 利用人工智能文字处理器将自动化提升到了新的水平，用这种革命性的工具取代了繁琐的写作任务，自动生成营销文案、职位描述等的全文。借助生成式人工智能，协作和生产力可以飙升至新的高度，从而腾出宝贵的时间来进行更具创造性和战略性的努力。除了生成新内容之外，文本生成人工智能工具还可以有效地执行许多其他与语言相关的任务，例如回答问题、完成不完整的文本、将文本分类为不同的类别、改写和改进内容以及就多个主题进行类似人类的讨论。

2023-08-10 13:52:53 963 1

原创【ML】结构化数据和非结构化数据的区别以及如何将非结构化数据转换为结构化数据

与以特定格式（例如表或数据库）组织的结构化数据不同，非结构化数据缺乏一致的结构或预定义的模式。然而，经过充分分析，它也可以提供有价值的见解，因为它将非结构化数据的灵活性与某些结构化数据组织结合起来。结构化数据以特定格式组织，例如表格或电子表格，而非结构化数据没有特定的形式或结构。结构化数据和非结构化数据之间的主要区别在于，结构化数据可以使用计算机算法轻松组织和分析。总体而言，结构化数据对于组织来说是宝贵的资源，因为它提供了可靠且一致的信息源，可用于制定数据驱动的决策。

2023-08-08 10:50:25 3026

原创【ML】L1 和 L2 正则化解释、何时使用它们以及实际示例

最常用的正则化技术是 L1 正则化 (Lasso)、L2 正则化 (Ridge) 和弹性网络正则化。在实践中，L1 和 L2 正则化的组合（称为弹性网络正则化）通常用于利用这两种技术的优势，并在稀疏性和权重收缩之间找到平衡。请注意，这是从头开始的 L2 正则化的基本实现。因此，正则化技术和正则化参数的选择必须根据具体问题和数据集仔细选择和调整，以在模型性能的偏差和方差之间取得适当的平衡。值得注意的是，L1 和 L2 正则化之间的选择并不总是明确的，可能需要使用不同的正则化技术对模型的性能进行实验和评估。

2023-07-31 10:35:52 2112 1

原创【DL】探索扩散模型：关键概念和应用的综合指南

人工智能中扩散模型的迭代过程是其功能的一个基本方面，涉及多次迭代或步骤以生成高质量的输出。为了理解这个过程，让我们更深入地研究扩散模型的工作原理。扩散模型是生成模型，旨在捕获给定数据集的基础分布。他们学习通过迭代地改进输出来生成类似于训练数据的新样本。该过程从初始输入或“噪声”样本开始，该样本通过模型。然后，模型应用概率变换来迭代更新样本，使其更接近所需的输出。在每次迭代期间，扩散模型都会生成潜在变量，充当数据的中间表示。这些潜在变量捕获训练数据中存在的基本特征和模式。

2023-07-31 10:26:18 441

原创【NLP】图神经网络解释以及如何使用 PyTorch 使用

通过整合文本数据中固有的结构依赖性，GNN 提供了一种有前途的方法来处理复杂的 NLP 任务，例如文本分类。通过利用 GNN 的力量，我们可以开辟理解和分析文本数据的新途径，从而推动各种 NLP 应用的进步。结合 GNN 和 PyTorch 的优势，可以创建复杂的模型，有效捕获文本数据的结构特征，从而实现更准确、更稳健的文本分类。例如，在社交网络中，节点可以代表个人，边可以代表他们之间的友谊。GNN 提供了一种很有前途的方法来利用基于图的表示并捕获文本数据中的结构依赖性，从而提高各种 NLP 任务的性能。

2023-07-27 08:49:54 371

原创【LLM】如何将开源基础模型训练成特定领域的LLM？

基础模型”一词是由斯坦福大学研究人员提出的，用于描述新型机器学习模型。这些模型不是为图像识别等特定任务而设计的，而是使用大规模自我监督学习在广泛、多样化的数据集上进行训练，从而可以针对各种下游任务进行微调。与名称所暗示的相反，基础模型 (FM) 并不是人工智能的基石，也不暗示 AGI（通用人工智能）。预训练：FM 使用大量数据和强大的计算能力进行了预训练，无需进一步训练即可使用。泛化：与针对特定任务的传统人工智能模型不同，FM 具有多功能性，旨在解决众多任务。

2023-07-26 09:24:20 1069

原创【NLP】通过迁移学习加速 AI 模型训练

迁移学习是一种机器学习方法，涉及利用从一项任务中获取的知识来提高另一项不同但相关的任务的性能。例如，如果我们训练一个模型来识别图片中的背包，我们就可以用它来识别太阳镜、帽子或桌子等物体。迁移学习背后的主要思想是利用模型通过标记数据解决任务所知道的知识，并将这些知识应用于没有太多数据的新任务。我们不是从头开始，而是从模型从类似任务中学到的模式和信息开始。迁移学习通常用于分析图像或理解语言等任务。它很有帮助，因为它使我们能够利用预先训练的模型已经完成的艰苦工作，从而节省时间和计算资源。

2023-07-25 14:05:00 357 1

原创【LLM】深入剖析 GOOGLE PALM 2：全面概述

Google 最新的 AI 语言模型 PaLM 2 将提升其整个产品系列的 AI 功能，包括 Gmail、Google Docs 和 Bard。该模型在能力上与 GPT-4 等其他语言模型类似，擅长驱动AI聊天机器人、代码编写、图像分析和翻译。PaLM 2 的多语言能力将用于将 Bard 的语言支持扩展到 40 多种语言。PaLM 2 的训练融合了 100 多种语言的多语言文本，使模型能够在高级语言能力考试中达到“掌握”水平。

2023-07-20 08:45:17 1454

原创【ML】前 9 个最受欢迎的激活函数以及何时使用它们

这有助于防止数值上溢或下溢。然而，近年来，ReLU 及其变体的受欢迎程度有所增加，主要是因为它们的简单性和在深度学习模型中的更好性能。值得注意的是，尽管神经网络的各个层可能使用线性激活函数，但堆叠多个线性层不会将模型的表示能力提高到超过单个线性层的表示能力。值得注意的是，与 ReLU 和其他更简单的激活函数相比，由于指数函数，ELU 引入了额外的计算复杂性。然而，改进的性能和减轻的限制使其成为流行的选择，尤其是在深度学习架构中。线性激活函数，也称为恒等函数，是神经网络中使用的最简单的激活函数之一。

2023-07-19 08:48:45 259

原创【LLM】2023 年最值得考虑的 10 个最强大语言模型

LLaMA 衍生出许多不同的模型；LaMDA AI 代表对话应用程序的语言模型，是 Google 开发的一种会话式大语言模型 (LLM)，作为基于对话的应用程序的基础技术，可以生成人类发音的语言。Google Transformer 研究项目的创新之一是 LaMDA，这是一项自然语言处理方面的工作，是多种语言模型的基础，其中包括 ChatGPT 背后的技术 GPT-3。这种开放性促进了人工智能社区内的协作和创新，使个人和组织能够在现有模型的基础上构建，创建新的应用程序，并为人工智能技术的整体进步做出贡献。

2023-07-19 08:48:21 779

原创【ML】少样本学习解释和分步如何使用

通过利用无监督或自监督的预训练，模型可以学习有用的表示，从而有助于泛化到具有有限标记数据的新任务或类。元学习涉及在多个相关任务上训练模型，以快速适应新的、类似的任务，而仅需要几个标记的示例。总体而言，小样本学习为标记数据稀缺、新任务或类频繁出现或需要适应新环境的场景提供了宝贵的学习工具。通过遵循这些步骤，少样本学习技术使模型能够从有限的标记数据中进行泛化，并在新的、未见过的任务或类上表现良好。模型可以通过利用用户的历史行为和用户对新项目或类别的偏好的一些标记示例来学习做出准确的推荐。

2023-07-18 08:38:22 445 1

原创【LLM】优化预训练模型：参数高效微调 (PEFT) 指南

参数高效微调（PEFT）是自然语言处理（NLP）中使用的一种技术，用于提高预训练语言模型在特定下游任务上的性能。它涉及重用预训练模型的参数并在较小的数据集上对其进行微调，与从头开始训练整个模型相比，这可以节省计算资源和时间。PEFT 通过冻结预训练模型的某些层并仅微调特定于下游任务的最后几层来实现这种效率。这样，模型就可以以更少的计算开销和更少的标记示例来适应新任务。尽管 PEFT 是一个相对新颖的概念，但自从引入迁移学习以来，更新最后一层模型已经在计算机视觉领域得到实践。

2023-07-17 16:59:42 3589 1

原创【LLM】Falcon LLM：开源 LLM 的新王

作为目前最好的开源模型，Falcon 摘得了 LLaMA 桂冠，人们惊叹于它强烈优化的架构、具有独特许可证的开源，并且有两种尺寸可供选择：40B 和 7B 参数。RefinedWeb 数据集建立在 CommonCrawl 之上，显示出的模型比在精选数据集上训练的模型具有更好的性能。该团队经历了彻底的过滤阶段，以删除机器生成的文本和成人内容以及任何重复数据删除，以生成包含近 5 万亿个令牌的预训练数据集。为了接受 1 万亿代币的训练，需要 AWS 上的 384 个 GPU，历时两个多月。

2023-07-17 15:45:09 340

原创【NLP】GPT-4 和 ChatGPT 要点

想象一个世界，您可以像与朋友一样快速地与计算机进行交流。那会是什么样子？您可以创建哪些应用程序？这就是 OpenAI 正在利用其 GPT 模型帮助构建的世界，为我们的设备带来类人的对话功能。作为人工智能 (AI) 的最新进展，GPT-4 和 ChatGPT 是经过大量数据训练的大型语言模型 (LLM)，使它们能够以非常高的准确度识别和生成类似人类的文本。这些人工智能模型的影响远远超出了简单的语音助手。

2023-07-14 10:26:59 390

原创【NLP】文本聚类和主题建模

够了！这是实践的文章，所以终于到了一些实践编码的时候了。# 实例化我们的主题模型# 将我们的主题模型拟合到文档列表中然而，BERTopic 众所周知的模块化性以及我们迄今为止已经可视化的模块化性也可以通过编码示例来可视化。您可能已经注意到，大多数导入（例如 UMAP 和 HDBSCAN）都是默认 BERTopic 管道的一部分。# 步骤 1 - 提取嵌入（蓝色块）# 步骤 2 - 降低维度（红色块）# 步骤 3 - 聚类减少嵌入（绿色块）# 第 4 步 - 对主题进行标记（黄色块）

2023-07-11 08:49:20 1227

百度、马蜂窝和大众点评数据集（情感分析）

中国客户评论数据集来自“基于字符的 BiLSTM-CRF 结合 POS 和词典进行中文意见目标提取” 情感分析（Sentiment Analysis），也被称为意见挖掘（Opinion Mining），是一种文本分析技术，旨在识别和提取文本中的情感倾向或情绪状态。情感分析可以帮助我们理解人们在社交媒体、产品评论、新闻文章等文本中所表达的情感。它通过自然语言处理（NLP）和机器学习技术来对文本进行分类，并确定文本的情感极性，通常分为以下几类：正面情感：表示文本所表达的情感倾向为积极、满意或正面的。负面情感：表示文本所表达的情感倾向为消极、不满意或负面的。中性情感：表示文本所表达的情感倾向中立，即没有明显的积极或消极情绪。情感分析技术通常基于机器学习算法，如朴素贝叶斯、支持向量机（SVM）、逻辑回归等，以及深度学习模型，如循环神经网络（RNN）和卷积神经网络（CNN）。这些模型通过学习大量标注好的情感数据集，从中提取文本的特征并进行情感分类。

2023-06-29

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

百度、马蜂窝和大众点评数据集（情感分析）

百度、马蜂窝和大众点评数据集（情感分析）

中文常用停用词表(stopwords)

bert-base-chinese (pytorch版本预训练模型)

空空如也