![](https://img-blog.csdnimg.cn/00eba5b403db401590a1f0cfa8741909.jpeg?x-oss-process=image/resize,m_fixed,h_224,w_224)
自然语言处理(NLP)
文章平均质量分 94
自然语言处理(NLP Natural Language Processing)是一种专业分析人类语言的人工智能。就是在机器语⾔和⼈类语言之间沟通的桥梁,以实现人机交流的目的。
Sonhhxg_柒
Save your heart for someone who cares. #愿岁月清净 抬头遇见皆是柔情#
展开
-
【NLP】LLM 和 RAG
在这里,我描述了我在过去几年中关于 RAG 系统如何发展的主要经验。分享Naive RAG、Advanced RAG 和 Modular RAG 框架之间的区别。原创 2024-04-02 16:33:38 · 1883 阅读 · 0 评论 -
【NLP】RAG 应用中的调优策略
检索增强生成应用程序的调优策略没有一种放之四海而皆准的算法能够最好地解决所有问题。本文通过数据科学家的视角审视检索增强生成(RAG)管道。它讨论了您可以尝试提高 RAG 管道性能的潜在“超参数”。与深度学习中的实验类似,例如,数据增强技术不是超参数,而是可以调整和实验的旋钮,本文还将介绍您可以应用的不同策略,这些策略本身不是超参数。本文涵盖以下按相关阶段排序的“超参数”。在RAG 管道的请注意,本文涵盖了 RAG 的文本用例。对于多模式 RAG 应用,可能需要考虑不同的因素。原创 2023-12-11 10:40:11 · 1692 阅读 · 0 评论 -
【NLP】培训LLM的不同方式
在大型语言模型(LLM)领域,存在多种具有不同手段、要求和目标的培训机制。由于它们有不同的用途,因此重要的是不要将它们相互混淆并了解它们适用的不同场景。在本文中,我想概述一些最重要的训练机制,包括预训练微调人类反馈强化学习 (RLHF)和适配器。此外,我将讨论提示的作用,提示本身不被认为是一种学习机制,并阐明提示调整的概念,它在提示和实际训练之间架起了一座桥梁。预训练预训练是最基本的训练方式,与您所知道的其他机器学习领域的训练相同。原创 2023-11-22 17:19:37 · 924 阅读 · 0 评论 -
【NLP】LLM 中 100K 上下文窗口背后的秘密:所有技巧都集中在一处
具有条件计算的 COLT5 Transformer 层的概述。人们想要申请法学硕士的重要用例之一是“将大量自定义数据放入LLM”(与公司或特定问题相关的文档、各种异构文本等)并提出有关该特定数据的问题,不是LLM在培训期间看到的一些来自互联网的抽象数据。我学到了很多东西,我希望你也学到了,现在我们可以猜测这些具有数十亿参数的大型语言模型是如何在前所未有的 65-100K 令牌上下文窗口中进行训练的。次迭代,因为上下文长度变得更大(为了简单起见,我们假设它是线性的,根据任务的不同,它可能是高估或低估)。原创 2023-11-17 11:33:13 · 1349 阅读 · 0 评论 -
【NLP】理解 Llama2:KV 缓存、分组查询注意力、旋转嵌入等
是 Meta AI 的开创性作品,作为首批高性能开源预训练语言模型之一闯入了 AI 场景。值得注意的是,,尽管其尺寸只是其一小部分。您无疑听说过 LLaMA 令人印象深刻的性能,但您是否想知道是什么让它如此强大?图 1:原始 Transformer 和 LLama 之间的架构差异检查图 1 揭示了从原始 Transformer 到突破性的 LLaMA 架构的深刻转变。LLaMA 2.0 牢固地植根于 Transformer 框架的基础,但它引入了独特的创新——SwiGLU和。原创 2023-11-13 13:58:56 · 3455 阅读 · 0 评论 -
【NLP】大型语言模型,ALBERT — 用于自监督学习的 Lite BERT
介绍近年来,大型语言模型的发展突飞猛进。BERT 成为最流行、最高效的模型之一,可以高精度地解决各种 NLP 任务。BERT 之后,一系列其他模型随后出现,也表现出了出色的效果。显而易见的趋势是,。深度学习研究表明,此类技术通常会带来更好的结果。不幸的是,机器学习世界已经解决了有关法学硕士的几个问题,可扩展性已成为有效训练、存储和使用它们的主要障碍。因此,最近开发了新的LLM来解决可扩展性问题。在本文中,我们将讨论 2020 年发明的 ALBERT,其目标是显着减少 BERT 参数。原创 2023-11-13 10:49:58 · 746 阅读 · 1 评论 -
【AI】生成模型变得简单:了解它们的工作原理和不同类型
这些模型是创意人工智能的核心,它们有能力生成各种内容,从栩栩如生的图像和引人入胜的文本到令人着迷的音乐和创新的艺术作品。在这篇博文中,我们将踏上探索生成模型的迷人世界的旅程,揭开其复杂的内部运作机制并了解其非凡的潜力。生成器的目标是生成与真实数据无法区分的数据,而鉴别器的任务是成为区分真实数据和生成数据的专家。例如,在文本生成中,每个单词都是根据其前面的单词生成的。我们将深入研究生成模型的内部工作原理,提供可供使用的模型列表,讨论它们的挑战和局限性,并探索有望突破人工智能创造力界限的令人兴奋的未来趋势。原创 2023-11-10 11:11:43 · 946 阅读 · 0 评论 -
【NLP】DeepSpeed-FastGen:通过 MII 和 DeepSpeed-Inference 为LLM生成高通量文本
一、简介GPT-4 和 LLaMA 等大型语言模型 (LLM) 已成为服务于各个级别的人工智能应用程序的主要工作负载。从一般聊天模型到文档摘要,从自动驾驶到软件堆栈每一层的副驾驶,大规模部署和服务这些模型的需求猛增。虽然 DeepSpeed、PyTorch 等框架可以在 LLM 训练期间定期实现良好的硬件利用率,但这些应用程序的交互性和开放式文本生成等任务的较差算术强度已成为现有系统中推理吞吐量的瓶颈。为此,由 PagedAttention 提供支持的和等研究系统显着提高了 LLM 的推理性能。翻译 2023-11-10 11:00:29 · 1265 阅读 · 2 评论 -
【NLP】特征提取: 广泛指南和 3 个操作教程 [Python、CNN、BERT]
通过使用预先训练的 CNN 模型进行特征提取,您可以受益于该模型自动学习和捕获信息丰富的图像特征的能力。此外,随着 NLP 研究的不断发展,预训练的语言模型因其提供丰富的上下文嵌入的能力而受到欢迎,并显着提高了各种 NLP 任务的现有技术水平。深度学习模型,特别是用于图像数据的卷积神经网络 (CNN) 和用于文本等序列数据的循环神经网络 (RNN),可以学习数据中复杂的模式和表示。总之,特征提取是数据预处理和机器学习的基本步骤,在提高模型的质量、可解释性和性能方面发挥着至关重要的作用。原创 2023-11-07 15:47:59 · 9416 阅读 · 3 评论 -
【NLP】什么是语义搜索以及如何实现 [Python、BERT、Elasticsearch]
语义搜索是一种先进的信息检索技术,旨在通过理解搜索查询和搜索内容的上下文和含义来提高搜索结果的准确性和相关性。总体而言,NLP 语义搜索提供了更复杂和上下文感知的搜索功能,使其在各种应用中都很有价值,包括网络搜索引擎、企业搜索、电子商务、聊天机器人和虚拟助理,在这些应用中,理解和满足用户的意图至关重要。与传统方法相比,BERT 的上下文理解可以显着提高搜索结果的质量。自然语言处理(NLP)上下文中的语义搜索是指应用NLP技术通过理解搜索查询和正在搜索的内容的含义和上下文来增强搜索结果的准确性和相关性。原创 2023-10-30 11:11:06 · 4695 阅读 · 2 评论 -
【NLP】20 个基本的文本清理技术
NLP 中的文本清理是什么?文本清理,也称为文本预处理或文本数据清理,正在准备原始文本数据并将其转换为更干净、更结构化的格式,以用于分析、建模或其他自然语言处理 (NLP) 任务。它涉及各种技术和程序,从文本文档中去除噪声、不一致和不相关信息,使数据更适合文本分析、情感分析、文本分类和机器学习等下游任务。文本清理的主要目标是什么?文本清理是任何文本分析或 NLP 项目中的关键步骤。清洗后的文本数据的质量直接影响后续分析或建模任务的准确性和有效性。原创 2023-10-09 17:09:14 · 4062 阅读 · 3 评论 -
【LLM】低成本进行半天的训练可产生与主流大型模型、开源且无商业的特定领域 LLM 解决方案类似的结果
在常见的英语评测排名中可以观察到,在MMLU排名中,Colossal-LLaMA-2-7B-base在低成本持续预训练的支持下,克服了灾难性遗忘的问题。用户只需要上传自己的数据进行微调,并且可以将微调后的模型以API的形式部署。因此,在兼顾训练质量和效率的情况下,经过大量实验,Colossal-AI团队决定将LLaMA-2的词汇量从原来的32,000个单词扩大到69,104个。纵观整个训练损失记录,很明显,在利用 Colossal-AI 系统的成本效益功能的同时,模型的收敛性也得到了很好的保留。翻译 2023-09-27 17:06:41 · 317 阅读 · 0 评论 -
【LLM】如何使用单个GPU 微调 Llama2
自然语言处理领域通过 ChatGPT 等大型语言模型 (LLM) 取得了令人难以置信的进步。然而,这些模型都有其局限性。他们可能会提出隐私问题,遵守一套固定的规则,并仅限于最后一次培训的日期。PaLM 和 GPT-3.5 等预训练 LLM 的另一个限制不是。这意味着开发人员和研究人员无法访问模型的内部工作原理,从而限制了他们根据特定用例微调和定制模型的能力。幸运的是,新时代已经到来,是Meta推出的开源LLM,它允许,减轻隐私问题并实现个性化的AI体验。此外,创新的。原创 2023-09-14 09:36:40 · 1849 阅读 · 3 评论 -
【NLP】信息检索变得简单、不同类型及其工作原理
信息检索模型是信息检索中使用的数学和概念框架,用于表示和描述响应用户查询从集合中检索相关文档或信息的过程。信息检索是一个动态且不断发展的领域,它深刻地影响着我们在生活的各个方面访问和利用信息的方式,从日常网络搜索到学术研究和组织决策。信息检索模型的选择取决于检索任务的具体要求和特征以及可用的数据和资源。信息检索是许多信息系统的基本组成部分,该领域正在进行的研究重点是提高检索系统的准确性和效率,特别是在当今可用的数字信息量不断扩大的背景下。选择的系统类型取决于用户和组织的具体需求和目标。原创 2023-09-06 15:50:45 · 938 阅读 · 0 评论 -
【NLP】LangChain 如何构建自定义知识聊天机器人
现在,解释这部分内容将会很广泛,所以这里有一个简单的例子,说明如何在 LangChain 中使用 Python 代理来解决一个简单的数学问题。为了与我们的法学硕士进行交互,我们将实例化 OpenAI 的 GPT 模型的包装器。在本文中,我将向您介绍 LangChain,并向您展示如何将其与 OpenAI 的 API 结合使用来创建这些改变游戏规则的工具。但它真正的亮点在于将其与前面讨论的矢量存储结合使用。剩下要做的就是结合我们所学到的知识来创建我们的特定用例——为我们提供专门的人工智能“代理”。原创 2023-09-04 14:43:34 · 671 阅读 · 0 评论 -
【NLP】图神经网络解释以及如何使用 PyTorch 使用
通过整合文本数据中固有的结构依赖性,GNN 提供了一种有前途的方法来处理复杂的 NLP 任务,例如文本分类。通过利用 GNN 的力量,我们可以开辟理解和分析文本数据的新途径,从而推动各种 NLP 应用的进步。结合 GNN 和 PyTorch 的优势,可以创建复杂的模型,有效捕获文本数据的结构特征,从而实现更准确、更稳健的文本分类。例如,在社交网络中,节点可以代表个人,边可以代表他们之间的友谊。GNN 提供了一种很有前途的方法来利用基于图的表示并捕获文本数据中的结构依赖性,从而提高各种 NLP 任务的性能。原创 2023-07-27 08:49:54 · 444 阅读 · 0 评论 -
【NLP】通过迁移学习加速 AI 模型训练
迁移学习是一种机器学习方法,涉及利用从一项任务中获取的知识来提高另一项不同但相关的任务的性能。例如,如果我们训练一个模型来识别图片中的背包,我们就可以用它来识别太阳镜、帽子或桌子等物体。迁移学习背后的主要思想是利用模型通过标记数据解决任务所知道的知识,并将这些知识应用于没有太多数据的新任务。我们不是从头开始,而是从模型从类似任务中学到的模式和信息开始。迁移学习通常用于分析图像或理解语言等任务。它很有帮助,因为它使我们能够利用预先训练的模型已经完成的艰苦工作,从而节省时间和计算资源。原创 2023-07-25 14:05:00 · 378 阅读 · 1 评论 -
【LLM】如何将开源基础模型训练成特定领域的LLM?
基础模型”一词是由斯坦福大学研究人员提出的,用于描述新型机器学习模型。这些模型不是为图像识别等特定任务而设计的,而是使用大规模自我监督学习在广泛、多样化的数据集上进行训练,从而可以针对各种下游任务进行微调。与名称所暗示的相反,基础模型 (FM) 并不是人工智能的基石,也不暗示 AGI(通用人工智能)。预训练:FM 使用大量数据和强大的计算能力进行了预训练,无需进一步训练即可使用。泛化:与针对特定任务的传统人工智能模型不同,FM 具有多功能性,旨在解决众多任务。原创 2023-07-26 09:24:20 · 1266 阅读 · 0 评论 -
【LLM】深入剖析 GOOGLE PALM 2:全面概述
Google 最新的 AI 语言模型 PaLM 2 将提升其整个产品系列的 AI 功能,包括 Gmail、Google Docs 和 Bard。该模型在能力上与 GPT-4 等其他语言模型类似,擅长驱动AI聊天机器人、代码编写、图像分析和翻译。PaLM 2 的多语言能力将用于将 Bard 的语言支持扩展到 40 多种语言。PaLM 2 的训练融合了 100 多种语言的多语言文本,使模型能够在高级语言能力考试中达到“掌握”水平。原创 2023-07-20 08:45:17 · 2062 阅读 · 0 评论 -
【LLM】优化预训练模型:参数高效微调 (PEFT) 指南
参数高效微调(PEFT)是自然语言处理(NLP)中使用的一种技术,用于提高预训练语言模型在特定下游任务上的性能。它涉及重用预训练模型的参数并在较小的数据集上对其进行微调,与从头开始训练整个模型相比,这可以节省计算资源和时间。PEFT 通过冻结预训练模型的某些层并仅微调特定于下游任务的最后几层来实现这种效率。这样,模型就可以以更少的计算开销和更少的标记示例来适应新任务。尽管 PEFT 是一个相对新颖的概念,但自从引入迁移学习以来,更新最后一层模型已经在计算机视觉领域得到实践。原创 2023-07-17 16:59:42 · 4709 阅读 · 1 评论 -
【NLP】文本聚类和主题建模
够了!这是实践的文章,所以终于到了一些实践编码的时候了。# 实例化我们的主题模型# 将我们的主题模型拟合到文档列表中然而,BERTopic 众所周知的模块化性以及我们迄今为止已经可视化的模块化性也可以通过编码示例来可视化。您可能已经注意到,大多数导入(例如 UMAP 和 HDBSCAN)都是默认 BERTopic 管道的一部分。# 步骤 1 - 提取嵌入(蓝色块)# 步骤 2 - 降低维度(红色块)# 步骤 3 - 聚类减少嵌入(绿色块)# 第 4 步 - 对主题进行标记(黄色块)原创 2023-07-11 08:49:20 · 1462 阅读 · 0 评论 -
【NLP】T5:文本到文本转换器
训练神经网络的不同选项如果我们想训练神经网络来解决某些任务,我们有两个基本选择。从头开始训练:随机初始化您的神经网络并根据您的目标任务对其进行训练(以监督方式)。迁移学习:在单独的数据集上预训练网络,然后针对目标任务对其进行微调(即更多训练)。通常,预训练是在比下游目标数据集大得多的数据集上执行的。一般来说,预训练可以极大地提高数据效率。该模型在微调过程中学习得更快,甚至可能表现得更好。迁移学习过程可以采取多种不同的形式。原创 2023-07-06 17:35:26 · 466 阅读 · 0 评论 -
【NLP】文本聚类和主题建模
尽管分类等监督技术在过去几年中在业界占据主导地位,但文本聚类等无监督技术的潜力也不容低估。文本聚类旨在根据语义内容、含义和关系对相似文本进行分组,如图所示。就像我们在第 XXX 章的密集检索中使用文本嵌入之间的距离一样,聚类嵌入允许我们根据相似性对存档中的文档进行分组。由此产生的语义相似文档集群不仅有助于对大量非结构化文本进行有效分类,而且还可以进行快速探索性数据分析。随着允许文本的上下文和语义表示的大型语言模型 (LLM) 的出现,文本聚类的功能在过去几年中显着增强。原创 2023-06-25 10:30:10 · 522 阅读 · 0 评论 -
【NLP】每个NLP工程师都应该知道的10 种不同的 NLP 技术
例如,当我们在亚马逊上搜索产品时,假设我们不仅希望看到我们在搜索栏中输入的确切单词的产品,还希望看到我们输入的单词的其他可能形式的产品。在英语中,相似的单词根据其使用的时态及其在句子中的位置而出现不同的情况。关键字提取技术在 NLP 应用程序中非常有用,在这种应用程序中,企业想要根据评论识别客户遇到的问题,或者如果您想要从最近的新闻项目中识别感兴趣的主题。在上面的句子中,我们尝试预测的单词是 sunny,使用输入作为单词“The day is Bright”的 one-hot 编码向量的平均值。原创 2023-06-21 16:52:50 · 4217 阅读 · 1 评论 -
【NLP】使用混合精度技术加速大型语言模型
由于大型语言模型 (LLM) 的计算要求和内存占用量大,因此训练和使用它们的成本很高。本文将探讨如何利用低精度格式将训练和推理速度提高 3 倍,同时不影响模型精度。尽管我们主要关注大型语言模型示例,但这些技术中的大多数都是通用的,也适用于其他深度学习架构。翻译 2023-06-19 08:42:24 · 1686 阅读 · 2 评论 -
【NLP】最近有关 AI 和 NLP 新闻
🔎大家好,我是Sonhhxg_柒,希望你看完之后,能对你有所帮助,不足请指正!共同学习交流🔎📝个人主页-📃📣系列专栏 -。原创 2023-06-14 16:39:11 · 109 阅读 · 0 评论 -
【 NLP】如何减小预训练语言模型?
预训练语言模型可以通过大量的文本数据进行训练,从而学习到更多的语言规律和语义信息。但是,由于大规模的语言模型通常需要庞大的计算资源和存储容量,因此减小预训练语言模型的大小可以带来以下一些好处:加速模型推理:减小模型的大小可以降低模型的计算复杂度,从而提高模型的推理速度,特别是在边缘设备和移动设备等有限计算资源的场景中。减少存储空间:预训练语言模型经常需要大量的存储空间,减小模型的大小可以减少存储需求,从而节省成本或者增加存储容量。原创 2023-06-03 10:29:44 · 570 阅读 · 0 评论 -
【NLP】文本摘要的SOTA模型及简单代码实现
文本摘要是将一段长文本缩减为一段简短的内容要点的过程。它可以帮助人们快速地了解一篇文章或一段文字的主要内容,节省时间和精力。文本摘要通常分为两种类型:提取式摘要和生成式摘要。提取式摘要使用文本中已有的句子或段落来生成摘要。这种方法通常涉及到对文本进行语言处理和关键词提取,然后从中选择最重要或最相关的内容。生成式摘要则是从头开始生成一段新的摘要内容,而不是仅仅从原文中提取已有的句子或段落。这种方法通常涉及到使用机器学习算法或深度学习模型对文本进行理解和总结,然后根据这些理解和总结来生成新的内容。原创 2023-05-22 09:44:51 · 5147 阅读 · 0 评论 -
【NLP】3 种强大的长文本摘要方法和实例
文本摘要是一种 NLP 过程,它专注于减少给定输入的文本量,同时保留关键信息和上下文含义。考虑到手动摘要所需的时间和资源,使用 NLP 的自动摘要已经在许多不同的用例中针对许多不同的文档长度进行了增长也就不足为奇了。摘要空间发展迅速,新的重点是处理超大文本输入以总结成几行。对新闻文章和研究论文等较长文档的摘要需求的增加推动了该领域的增长。原创 2023-05-19 15:05:09 · 4520 阅读 · 2 评论 -
Awesome NLP — 2022 年 21 个流行的 NLP 库
在本文中,我列出了当今最常用的 NLP 库,并对它们进行了简要说明。它们在不同的用例中各有优缺点,因此它们都可以作为专门从事 NLP 的优秀数据科学家的丰富知识。每个库的描述都是从它们的GitHub存储库中提取的。顶级 NLP 库这是顶级库的列表,按 GitHub 星数排序。57.1k GitHub 星数。Transformers 提供了数以千计的预训练模型来执行不同模态的任务,例如文本、视觉和音频。原创 2023-03-03 22:11:44 · 947 阅读 · 2 评论 -
【KBQA】医疗知识图谱的问答系统实现
医疗知识图谱是一种揭示医学实体之间关系的语义网络,可以用于支持医疗领域的智能应用,例如问答、诊断、推荐等。医疗知识图谱构建中Schema定义是指对医学领域内的概念类型、属性和关系进行抽象和规范,形成一个领域本体,用于指导知识图谱的数据获取、存储和查询。Schema定义是知识图谱构建的重要步骤,需要综合考虑业务场景、数据资源、术语标准化和概念通用性等因素。医疗知识图谱问答系统Schema定义是指在构建医疗知识图谱的基础上,设计一种用于表示和查询医疗领域问题和答案的数据结构。原创 2023-03-03 14:25:09 · 3726 阅读 · 8 评论 -
【NLP】一文理解Seq2Seq
Seq2Seq技术,全称Sequence to Sequence,该技术突破了传统的固定大小输入问题框架,开通了将经典深度神经网络模型(DNNs)运用于在翻译,文本自动摘要和机器人自动问答以及一些回归预测任务上,并被证实在英语-法语翻译、英语-德语翻译以及人机短问快答的应用中有着不俗的表现。原创 2023-02-21 19:42:47 · 8873 阅读 · 4 评论 -
用于医疗目的的自定义命名实体识别模型——使用 spaCy 模型
基于训练和预测测试结果,我们的模型可以准确识别医疗文档中的病原体类型、药物和健康状况。例如,该模型可以将大肠杆菌识别为病原体,将脑膜炎和胃痛识别为健康状况,将阿奇霉素识别为药物(抗生素)。我们将讨论使用自定义 NER 进行医疗保健的所有细节,希望在我们的讨论结束时,您将很好地理解它是如何工作的以及如何在您的项目中使用它。创建一个新的基础配置后,我们在基础配置的基础上创建一个新的。现在,我们可以使用 spaCy 模型来训练我们的数据集。最后,我们可以尝试我们的模型来预测新文档。为 spaCy 模型创建配置。原创 2023-01-13 10:09:58 · 2956 阅读 · 19 评论 -
【NLP】自然语言处理的语料库与词库
NLP语料库原创 2022-12-05 10:06:16 · 2806 阅读 · 9 评论 -
【NLP】使用 PyTorch 通过 Hugging Face 使用 BERT 和 Transformers 进行情感分析
您将学习如何微调 BERT 以进行情感分析。您将进行所需的文本预处理(特殊标记、填充和注意掩码),并使用 Hugging Face 令人惊叹的 Transformers 库构建情感分类器!原创 2022-11-21 09:24:07 · 3143 阅读 · 6 评论 -
【NLP】使用 BERT 和 PyTorch Lightning 进行多标签文本分类
了解如何为多标签文本分类(标记)准备带有恶意评论的数据集。我们将使用 PyTorch Lightning 微调 BERT 并评估模型。多标签文本分类(或标记文本)是您在执行 NLP 时会遇到的最常见任务之一。现代基于 Transformer 的模型(如 BERT)利用对大量文本数据的预训练,可以更快地进行微调,使用更少的资源并且在较小的(更)数据集上更准确。我们的模型对有害文本检测有用吗?数据我们的数据集包含潜在的攻击性(有毒)评论,来自。我们有文字(评论)和六种不同的毒性标签。原创 2022-11-19 09:37:24 · 3868 阅读 · 6 评论 -
【NLP】词向量
Word2Vec 本质上也是一个神经语言模型,但是它的目标并不是语言模型本身,而是词向量;因此,其所作的一系列优化,都是为了更快更好的得到词向量。,因为 FastText 使用了字符级的 N-gram 向量作为额外的特征,使其能够对。如果根据经验公式,是不需要这么大的,比如 200W 词表的词向量维度只需要。虽然 SG 模型用中心词做特征,上下文词做类标,但实际上两者的地位是等价的。只要未登录词能被已知的 n-grams 组合,就能得到该词的词向量。,以词表中词作为叶子节点,各词的出现频率作为权重——共。原创 2022-10-26 09:10:29 · 1386 阅读 · 6 评论 -
【NLP】使用 LSTM 和Beam Search进行文本自动完成
在本章中,我们不是使用数值的时间序列,而是将 RNN 应用于自然语言文本(英语)。有两种简单的方法可以做到这一点。我们可以将文本视为字符序列或单词序列。在本章中,我们将它视为一个字符序列,因为这是最简单的入门方法。在许多情况下,使用单词比使用字符更强大,在接下来的几章中将对此进行探讨。除了使用文本而不是数值之外,我们还演示了如何将模型与可变输入长度一起使用,以及如何预测多个时间步长,而不仅仅是紧跟在输入数据之后的一个步骤。原创 2022-10-22 11:29:52 · 1023 阅读 · 10 评论 -
【NLP】pkuseg:一个多领域中文分词工具包
请注意,这样的比较只是为了说明默认情况下的效果,并不一定是公平的。从pip安装的用户在使用细领域分词功能时,只需要设置model_name字段为对应的领域即可,会自动下载对应的细领域模型。从github下载的用户则需要自己下载对应的预训练模型,并设置model_name字段为预训练模型路径。GitHub的代码并不包括预训练模型,因此需要用户自行下载或训练模型,预训练模型可详见。: 使用领域自适应方法得到的优化后的通用模型,相较于默认模型规模更大,但泛化性能更好。: 混合数据集训练的通用模型。原创 2022-10-04 16:44:02 · 623 阅读 · 11 评论 -
【NLP】 Word2Vec模型 & Doc2Vec模型
Word2Vec是Google在2013年开源的一款将词表征为实数值向量的高效工具,采用的模型有CBOW(Continuous Bag-Of-Words,即连续的词袋模型)和Skip-Gram 两种。Word2Vec通过训练,可以把对文本内容的处理简化为K维向量空间中的向量运算,而向量空间上的相似度可以用来表示文本语义上的相似度。因此,Word2Vec 输出的词向量可以被用来做很多NLP相关的工作,比如聚类、找同义词、词性分析等等。原创 2022-10-04 16:06:32 · 1086 阅读 · 10 评论