NLP
文章平均质量分 88
Natural Language Processing
Iareges
这个作者很懒,什么都没留下…
展开
-
详解Megatron中的数据混合算法(BlendableDataset)
🧑💻 本文主要讲解Megatron中的数据混合算法。原创 2024-02-24 14:12:26 · 1142 阅读 · 0 评论 -
关于LLaMA Tokenizer的一些坑...
字符是回车符(Carriage Return, CR),在ASCII表中的位置是十进制的13或者十六进制的0x0D。这个字符最初设计用于打字机和早期计算机,指的是将打印头移动到一行的开始位置而不换到下一行,这样新的文本就会覆盖掉同一行上旧的文本。文件中对应的行抽取出来,单独对它进行分词,然后将分词结果打印到终端上,发现并没有换行,然而将这个分词结果单独写入到一个新的文件中时,换行出现了。文件对应行的文档的分词结果,分词之间以空格分隔。文件,发现出现问题的行的开头压根没有数字,文件中的每行内容实际上是。原创 2024-02-08 21:29:44 · 1846 阅读 · 0 评论 -
重新审视MHA与Transformer
本文将基于PyTorch源码重新审视MultiheadAttention与Transformer。,但当时的实现大部分是基于教程的,这次将基于PyTorch源码重新实现一遍。原创 2023-07-31 14:03:54 · 1536 阅读 · 0 评论 -
一文搞懂ASCII、Unicode与UTF-8
Unicode是字符集,而UTF-32、UTF-16、UTF-8是Unicode的一种编码方案(实现方式),旨在将码位转换成可以存储和传输的字节序列。原创 2023-06-27 14:35:36 · 931 阅读 · 0 评论 -
情感分析系列(四)——使用BERT进行情感分析
使用BERT进行情感分析原创 2022-11-01 22:12:11 · 3554 阅读 · 1 评论 -
情感分析系列(三)——使用TextCNN进行情感分析
使用TextCNN进行情感分析原创 2022-10-30 13:58:30 · 1961 阅读 · 0 评论 -
情感分析系列(二)——使用BiLSTM进行情感分析
使用BiLSTM进行情感分析原创 2022-10-28 16:05:37 · 2633 阅读 · 2 评论 -
情感分析系列(一)——IMDb数据集及其预处理
IMDb数据集及其预处理原创 2022-10-28 12:21:23 · 8043 阅读 · 1 评论 -
Torchtext快速入门(二)——文本预处理
本文主要介绍的一些常用API。原创 2022-10-20 19:56:27 · 835 阅读 · 0 评论 -
Torchtext快速入门(一)——Vocab
深入解读torchtext.vocab.Vocab原创 2022-10-17 17:57:30 · 6637 阅读 · 4 评论 -
从零开始手写一个Transformer
本文将带你从零开始实现一个Transformer,并将其应用在NMT任务上。原创 2022-08-30 13:31:05 · 1939 阅读 · 5 评论 -
基于注意力机制的seq2seq模型
在此之前,我们实现了最普通的seq2seq模型,该模型的编码器和解码器均采用的是两层单向的GRU。本篇文章将基于注意力机制改进之前的seq2seq模型,其中编码器采用两层双向的LSTM,解码器采用含有注意力机制的两层单向LSTM。由于数据预处理部分相同,因此本文不再赘述,详情可参考之前的文章。.........原创 2022-08-15 09:50:20 · 1209 阅读 · 4 评论 -
深入剖析多层双向LSTM的输入输出
本文将结合官方文档并以seq2seq模型为例全面展示在多层双向LSTM中输入输出的形状变化以及如何正确使用它们。原创 2022-08-13 15:02:36 · 4583 阅读 · 2 评论 -
word2vec简单总结
与Skip-Gram相反,CBOW模型假设上下文词可以用来生成中心词。Skip-Gram模型假设中心词可以用来生成上下文词。在计算条件概率时我们通常会对这些上下文词取平均,即。,则Skip-Gram模型的似然函数为。表示其用作中心词和上下文词的两个向量。维向量来表示,具体来说,对于索引为。CBOW模型的似然函数为。词表中的每个词都由两个。,则上下文词的数量为。...........................原创 2022-07-19 21:33:31 · 306 阅读 · 2 评论 -
基于双语数据集搭建seq2seq模型
基于英-法数据集搭建无注意力机制的seq2seq模型原创 2022-07-09 17:28:35 · 1505 阅读 · 30 评论 -
PyTorch搭建LSTM实现服装分类(FashionMNIST)
LSTM + FashionMNIST原创 2022-06-23 22:58:00 · 875 阅读 · 12 评论 -
自然语言处理系列(三)——LSTM
从0开始手动实现LSTM+字符级语言模型搭建原创 2022-06-23 16:08:01 · 596 阅读 · 7 评论 -
自然语言处理系列(二)——使用RNN搭建字符级语言模型
使用RNN搭建字符级语言模型——人名分类任务原创 2022-06-21 22:37:14 · 911 阅读 · 17 评论 -
PyTorch nn.RNN 参数全解析
全面解析 torch.nn.RNN原创 2022-06-17 09:32:15 · 6854 阅读 · 80 评论 -
自然语言处理系列(一)——RNN基础
注: 本文是总结性文章,叙述较为简洁,不适合初学者目录一、为什么要有RNN?二、RNN的结构三、RNN的分类四、Vanilla RNN的优缺点一、为什么要有RNN?普通的MLP无法处理序列信息(如文本、语音等),这是因为序列是不定长的,而MLP的输入层神经元个数是固定的。二、RNN的结构普通MLP的结构(以单隐层为例):普通RNN(又称Vanilla RNN,接下来都将使用这一说法)的结构(在单隐层MLP的基础上进行改造):即 ttt 时刻隐藏层接收的输入来自于 t−1t-1t−1 时.原创 2022-06-15 11:08:46 · 647 阅读 · 14 评论