Nature Language Process
文章平均质量分 95
以NLP为主要技术路线,分享NLP的最新技术理论和案例
镰刀韭菜
视野,意志,品格;目标,坚持,实践
展开
-
【NLP】一个使用PyTorch实现图像分类的迁移学习实例
在特征提取中,可以在预先训练好的网络结构后修改或添加一个简单的分类器,然后将源任务上预先训练好的网络作为另一个目标任务的特征提取器,只对最后增加的分类器参数重新学习,而预先训练好的网络参数不被修改或冻结。在完成新任务的特征提取时使用的是源任务中学习到的参数,而不用重新学习所有参数。下面的示例用一个实例具体说明如何通过特征提取的方法进行图像分类。原创 2023-07-27 22:23:22 · 1081 阅读 · 0 评论 -
【NLP】深入浅出全面回顾注意力机制
之前的博文已经学习过注意力机制,今天我们重新回顾一下。理解注意力机制是学会Transformer的基石,例如Seq2Seq引入注意力机制、Transformer使用自注意力机制(self-Attention Mechanism),使得NLP、推荐系统等方面取得了新的突破。原创 2023-08-08 21:50:00 · 1346 阅读 · 0 评论 -
【NLP】手把手使用PyTorch实现Transformer以及Transformer-XL
Google 2017年的论文 Attention is all you need 提出了Transformer模型,完全基于Attention mechanism,抛弃了传统的RNN和CNN。本文根据论文的结构图,手把手带你使用 PyTorch 实现这个Transformer模型以及Transformer-XL模型。原创 2023-08-31 22:00:00 · 7080 阅读 · 2 评论 -
【大语言模型】5分钟快速认识ChatGPT、Whisper、Transformer、GAN
ChatGPT 是一个基于 GPT(Generative Pre-trained Transformer)技术的聊天型人工智能模型。GPT 是由 OpenAI(开放人工智能)开发的一系列语言模型,而 ChatGPT 是其中的一种特定版本,专注于为用户提供自然语言交互的聊天体验。ChatGPT 是在大规模无监督预训练的基础上构建的。在预训练阶段,模型通过处理海量的文本数据来学习语言的语法、语义和上下文信息。这使得 ChatGPT 具备了丰富的语言理解和生成能力。原创 2023-07-21 08:00:00 · 1480 阅读 · 0 评论 -
【NLP】从预训练模型中获取Embedding
在NLP领域中,构建大规模的标注数据集非常困难,以至于仅用当前语料无法有效完成特定任务。可以采用迁移学习的方法,即将预训练好的词嵌入作为模型的权重,然后在此基础上的微调。原创 2023-07-19 08:00:00 · 918 阅读 · 0 评论 -
【NLP】使用Word Embedding实现中文自动摘要
本文通过一个实例介绍如何使用Word Embedding实现中文自动摘要,使用Gensim中的word2vec模型来生成Word Embedding。原创 2023-07-16 17:19:04 · 1200 阅读 · 0 评论 -
【大语言模型】LLM应用程序的新兴体系结构
在本文中,我们分享了新兴的大型语言模型应用栈的参考架构。它展示了我们**在人工智能初创公司和高级技术公司中看到的最常见的系统、工具和设计模式**。这个栈仍处于非常早期阶段,随着基础技术的进步,它可能会发生重大变化,但我们希望它能成为现在与大型语言模型一起工作的开发人员的有用参考。原创 2023-07-10 22:00:00 · 1478 阅读 · 0 评论 -
【大语言模型】15分钟快速掌握LangChain以及ChatGLM
LangChain是一个强大的框架,旨在帮助开发人员使用语言模型构建端到端的应用程序。它提供了一套工具、组件和接口,可简化创建由大型语言模型 (LLM) 和聊天模型提供支持的应用程序的过程。LangChain 可以轻松管理与语言模型的交互,将多个组件链接在一起,并集成额外的资源,例如 API 和数据库。LangChain的主要功能有:调用语言模型,将不同数据源接入到语言模型的交互中,允许语言模型与运行环境交互。原创 2023-07-05 14:14:06 · 7801 阅读 · 0 评论 -
【大语言模型】5分钟了解预训练、微调和上下文学习
预训练)是语言模型学习的初始阶段。在预训练期间,模型会接触到大量未标记的文本数据,例如书籍、文章和网站。在大量未标记文本数据上训练语言模型。比如说在包含数百万本书、文章和网站的数据集上预训练像 GPT-3 这样的语言模型。预训练目标是捕获文本语料库中存在的底层模式、结构和语义知识。预训练(Pre-training)是指在目标任务之前,使用大规模数据集和无监督学习的方法对模型进行初始训练。在预训练阶段,模型通过学习输入数据的内部表示来获取知识和特征,以便在后续的具体任务上进行微调或迁移学习。原创 2023-06-28 14:40:31 · 13293 阅读 · 0 评论 -
【Hugging Face】Hugging Face 主要类和函数介绍
NLP 是语言学和机器学习交叉领域,专注于理解与人类语言相关的一切。NLP 任务的目标不仅是单独理解单个单词,而且是能够理解这些单词的上下文。对整个句子进行分类: 获取评论的情绪,检测电子邮件是否为垃圾邮件,确定句子在语法上是否正确或两个句子在逻辑上是否相关对句子中的每个词进行分类: 识别句子的语法成分(名词、动词、形容词)或命名实体(人、地点、组织)生成文本内容: 用自动生成的文本完成提示,用屏蔽词填充文本中的空白从文本中提取答案: 给定问题和上下文,根据上下文中提供的信息提取问题的答案。原创 2023-04-27 08:00:00 · 1853 阅读 · 0 评论 -
【自然语言处理】基于sklearn-crfsuite进行命名实体识别
本文中,针对CoNLL2002数据训练了一个用于命名实体识别的基本CRF模型,并检查其权重以查看该模型学到了什么。原创 2023-01-31 23:00:00 · 1598 阅读 · 2 评论 -
【AI理论学习】理解词向量、CBOW与Skip-Gram模型
word2vec是google在2013年推出的一个NLP工具,它的特点是**将所有的词向量化,这样词与词之间就可以定量的去度量他们之间的关系,挖掘词之间的联系**。在正式讲解 word2vec 前,还需要对一些基本概念有所了解。CBOW模型,Skip-gram模型原创 2022-12-22 23:45:00 · 2383 阅读 · 0 评论 -
【AI理论学习】n-gram语言模型和神经网络语言模型
语言模型是自然语言处理中的重要技术,假设一段长度为TTT的文本中的词依次为w1,w2,…,wTw1,w2,…,wTP(w1,w2,...,wT)P(w1,w2,...,wT)语言模型有助于提升自然语言处理任务的效果,例如在语音识别任务中,给定一段“厨房里食油用完了”的语音,有可能会输出“厨房里食油用完了”和“厨房里石油用完了”这两个读音完全一样的文本序列。原创 2022-12-21 23:45:00 · 1113 阅读 · 0 评论 -
NLP案例——命名实体识别(Named Entity Recongition)
NLP案例——命名实体识别(Named Entity Recongition)命名实体识别是NLP里的一项很基础的任务,就是指从文本中识别出命名性指称项,为关系抽取等任务做铺垫。狭义上,是识别出人命、地名和组织机构名这三类命名实体(时间、货币名称等构成规律明显的实体类型可以用正则表达式等方式识别)。当然,在特定的领域中,会相应地定义领域内的各种实体类型。 小明 在 ...原创 2018-07-20 17:18:46 · 36705 阅读 · 5 评论 -
【AI实践案例】基于Encoder-Decoder模型的Word Level英语到Marathi神经机器翻译
我们将通过单词水平逐步读取输入序列(英语句子)的单词,并保留在最后一次时间步hkh_khk之后生成的LSTM网络的内部状态(假设该句子具有“ k”单词)。这些向量(状态hkh_khk和ckc_kck)被称为输入序列的编码,因为它们以向量形式编码(总结)整个输入。因为一旦读取了整个序列,我们将开始生成输出,因此每个时间步的编码器的输出(YiY_iYi)被丢弃。此外,您还必须了解XiX_iXi,hih_ihi,cic_ici。原创 2022-09-23 21:27:21 · 726 阅读 · 3 评论 -
【AI理论学习】关于Attention机制的全面理解
本文以机器翻译为例,深入浅出地介绍了深度学习中注意力机制的原理及关键计算机制,同时也抽象出其本质思想,并介绍了注意力模型在图像及语音等领域的典型应用场景。从注意力模型的命名方式看,很明显其借鉴了人类的注意力机制,因此,我们首先简单介绍人类视觉的选择性注意力机制。视觉注意力机制是人类视觉所特有的大脑信号处理机制。人类视觉通过快速扫描全局图像,获得需要重点关注的目标区域,也就是一般所说的注意力焦点,而后对这一区域投入更多注意力资源,以获取更多所需要关注目标的细节信息,而抑制其他无用信息。视觉注意力机制是人类从原创 2022-09-22 22:00:00 · 1695 阅读 · 0 评论 -
【AI理论学习】对Transformer中Positional Encoding的理解
在任何一门语言中,词语的位置和顺序对句子意思表达都是至关重要的。传统的RNN模型在处理句子时,以序列的模式逐个处理句子中的词语,这使得词语的顺序信息在处理过程中被天然的保存下来了,并不需要额外的处理。而对于Transformer来说,由于句子中的词语都是同时进入网络进行处理,顺序信息在输入网络时就已丢失。因此,Transformer是需要额外的处理来告知每个词语的相对位置的。其中的一个解决方案,就是论文中提到的。原创 2022-09-16 22:00:00 · 3417 阅读 · 3 评论