自然语言处理
文章平均质量分 91
通过本专栏,深入探索自然语言处理(NLP)的世界。我们将覆盖从传统NLP模型到最新的大型语言模型(LLM),如BERT、GPT等,帮助读者理解其背后的原理与应用。无论是文本分类、情感分析,还是机器翻译和文本生成,我们将逐步解析每个环节,揭示自然语言处理的奥秘。通过实际战例和详细的代码示例,我们将帮助
优惠券已抵扣
余额抵扣
还需支付
¥29.90
¥99.00
购买须知?
本专栏为图文内容,最终完结不会低于15篇文章。
订阅专栏,享有专栏所有文章阅读权限。
本专栏为虚拟商品,基于网络商品和虚拟商品的性质和特征,专栏一经购买无正当理由不予退款,不支持升级,敬请谅解。
Iareges
这个作者很懒,什么都没留下…
展开
-
详解机器翻译任务中的BLEU
BLEU的计算和Python的简单实现原创 2022-07-06 17:28:10 · 1730 阅读 · 14 评论 -
深入理解BPE、WordPiece、Unigram分词算法
NLP任务中最重要的一个环节就是分词。分词器(Tokenizer)在整个任务流程中扮演的角色如下即给定一段文本,分词器会将其分割成一个个token,这些token会根据vocab转化成对应的ID以作为模型的输入。完整的分词流程包含以下四个步骤标准化阶段(Normalization):先将原始文本(raw text)做一个预处理,例如去掉Unicode字符的重音(é变成e),将所有字母全部转化成小写字母(E变成e)等。这一步可以理解为数据清洗;预分词阶段。原创 2023-08-26 11:25:33 · 2884 阅读 · 0 评论 -
自然语言处理系列(一)——RNN基础
注: 本文是总结性文章,叙述较为简洁,不适合初学者目录一、为什么要有RNN?二、RNN的结构三、RNN的分类四、Vanilla RNN的优缺点一、为什么要有RNN?普通的MLP无法处理序列信息(如文本、语音等),这是因为序列是不定长的,而MLP的输入层神经元个数是固定的。二、RNN的结构普通MLP的结构(以单隐层为例):普通RNN(又称Vanilla RNN,接下来都将使用这一说法)的结构(在单隐层MLP的基础上进行改造):即 ttt 时刻隐藏层接收的输入来自于 t−1t-1t−1 时.原创 2022-06-15 11:08:46 · 698 阅读 · 14 评论 -
PyTorch nn.RNN 参数全解析
全面解析 torch.nn.RNN原创 2022-06-17 09:32:15 · 7338 阅读 · 80 评论 -
自然语言处理系列(二)——使用RNN搭建字符级语言模型
使用RNN搭建字符级语言模型——人名分类任务原创 2022-06-21 22:37:14 · 963 阅读 · 17 评论 -
自然语言处理系列(三)——LSTM
从0开始手动实现LSTM+字符级语言模型搭建原创 2022-06-23 16:08:01 · 637 阅读 · 7 评论 -
基于双语数据集搭建seq2seq模型
基于英-法数据集搭建无注意力机制的seq2seq模型原创 2022-07-09 17:28:35 · 1565 阅读 · 30 评论 -
word2vec简单总结
与Skip-Gram相反,CBOW模型假设上下文词可以用来生成中心词。Skip-Gram模型假设中心词可以用来生成上下文词。在计算条件概率时我们通常会对这些上下文词取平均,即。,则Skip-Gram模型的似然函数为。表示其用作中心词和上下文词的两个向量。维向量来表示,具体来说,对于索引为。CBOW模型的似然函数为。词表中的每个词都由两个。,则上下文词的数量为。...........................原创 2022-07-19 21:33:31 · 316 阅读 · 2 评论 -
深入剖析多层双向LSTM的输入输出
本文将结合官方文档并以seq2seq模型为例全面展示在多层双向LSTM中输入输出的形状变化以及如何正确使用它们。原创 2022-08-13 15:02:36 · 4948 阅读 · 2 评论 -
基于注意力机制的seq2seq模型
在此之前,我们实现了最普通的seq2seq模型,该模型的编码器和解码器均采用的是两层单向的GRU。本篇文章将基于注意力机制改进之前的seq2seq模型,其中编码器采用两层双向的LSTM,解码器采用含有注意力机制的两层单向LSTM。由于数据预处理部分相同,因此本文不再赘述,详情可参考之前的文章。.........原创 2022-08-15 09:50:20 · 1363 阅读 · 4 评论 -
从零开始手写一个Transformer
本文将带你从零开始实现一个Transformer,并将其应用在NMT任务上。原创 2022-08-30 13:31:05 · 2415 阅读 · 5 评论 -
Torchtext快速入门(一)——Vocab
深入解读torchtext.vocab.Vocab原创 2022-10-17 17:57:30 · 7628 阅读 · 4 评论 -
Torchtext快速入门(二)——文本预处理
本文主要介绍的一些常用API。原创 2022-10-20 19:56:27 · 910 阅读 · 0 评论 -
情感分析系列(一)——IMDb数据集及其预处理
IMDb数据集及其预处理原创 2022-10-28 12:21:23 · 8599 阅读 · 1 评论 -
情感分析系列(二)——使用BiLSTM进行情感分析
使用BiLSTM进行情感分析原创 2022-10-28 16:05:37 · 2793 阅读 · 2 评论 -
情感分析系列(三)——使用TextCNN进行情感分析
使用TextCNN进行情感分析原创 2022-10-30 13:58:30 · 2064 阅读 · 0 评论 -
情感分析系列(四)——使用BERT进行情感分析
使用BERT进行情感分析原创 2022-11-01 22:12:11 · 3885 阅读 · 1 评论 -
一文搞懂ASCII、Unicode与UTF-8
Unicode是字符集,而UTF-32、UTF-16、UTF-8是Unicode的一种编码方案(实现方式),旨在将码位转换成可以存储和传输的字节序列。原创 2023-06-27 14:35:36 · 1548 阅读 · 1 评论 -
重新审视MHA与Transformer
本文将基于PyTorch源码重新审视MultiheadAttention与Transformer。,但当时的实现大部分是基于教程的,这次将基于PyTorch源码重新实现一遍。原创 2023-07-31 14:03:54 · 1875 阅读 · 0 评论 -
关于LLaMA Tokenizer的一些坑...
字符是回车符(Carriage Return, CR),在ASCII表中的位置是十进制的13或者十六进制的0x0D。这个字符最初设计用于打字机和早期计算机,指的是将打印头移动到一行的开始位置而不换到下一行,这样新的文本就会覆盖掉同一行上旧的文本。文件中对应的行抽取出来,单独对它进行分词,然后将分词结果打印到终端上,发现并没有换行,然而将这个分词结果单独写入到一个新的文件中时,换行出现了。文件对应行的文档的分词结果,分词之间以空格分隔。文件,发现出现问题的行的开头压根没有数字,文件中的每行内容实际上是。原创 2024-02-08 21:29:44 · 2217 阅读 · 0 评论 -
详解Megatron中的数据混合算法(BlendableDataset)
🧑💻 本文主要讲解Megatron中的数据混合算法。原创 2024-02-24 14:12:26 · 1474 阅读 · 0 评论