自然语言处理
文章平均质量分 84
muyuu
这个作者很懒,什么都没留下…
展开
-
ChatGPT原理解读
chagpt 算法介绍原创 2023-03-02 16:18:21 · 6861 阅读 · 0 评论 -
Word2vec结构详解及原理推导
目录统计语言模型神经概率语言模型Word2vecHierarchical SoftmaxHuffman 树CBOW 和 Skip-gramNegative SamplingCBOW 和 Skip-gram由于 Word2Vec 本质其实是一个语言模型,词向量只是这个语言模型的副产物,因此我们首先简单看一下语言模型:统计语言模型语言模型其实就是计算一个句子出现的概率,例如:我明天早上要去上学明天去上学我要早上我名天枣上要去尚学那么一个好的语言模型应该会让句子1的概率大于句子2和句子3。具体来原创 2022-04-05 20:52:46 · 1612 阅读 · 0 评论 -
NLP常见评价指标
目录标困惑度(Perplexity)BLEU精确率和召回率困惑度(Perplexity)困惑度 是语言模型的一个衡量标准。因为单纯序列的似然概率是一个难以理解、难以比较的数字。 毕竟,较短的序列比较长的序列更有可能出现, 因此评估模型产生长篇巨著《战争与和平》的可能性会比产生中篇小说《小王子》可能性要小得多。一个好的语言模型应该能让我们准确地预测下一个词元。 所以我们可以通过一个序列中 所有的 n 个词元的交叉熵损失的平均值 来衡量:1n−∑t=1nlog P(xt∣x1,⋯ ,xt−1)原创 2022-03-05 23:28:10 · 2079 阅读 · 0 评论 -
NLP位置编码
位置编码原创 2021-01-26 17:35:48 · 2412 阅读 · 3 评论 -
中文分词评价指标——正确率、召回率和F1
中文分词评价指标——正确率、召回率和F1转载 2021-09-14 11:17:55 · 973 阅读 · 0 评论 -
ELMo,GPT, Bert, XLNet 预训练模型对比
Context Based预训练编码器1:自回归语言模型(Decoder-AutoRegression)ELMoELMo简介ELMo的缺点GPTGPT简介GPT的缺点:2:自编码语言模型(Encoder-AutoEncoding)BERTBert的Pretrain:Bert的Fine-tuningBERT的缺点:3:排列语言模型(Encoder-AutoEncoding)XLNetXLNet的构思待研究的部分实验与预训练编码器对应的是word2vec,glove等浅层词嵌入,这类浅层词嵌入特点是学习到一个原创 2020-11-30 15:36:47 · 929 阅读 · 0 评论 -
统计语言模型,平滑方法,困惑度
目录统计语言模型零概率问题和平滑方法拉普拉斯平滑Add‐One 平滑Add‐K 平滑插值平滑古德-图灵估计Katz平滑统计语言模型统计语言模型的意义是通过计算一个语句出现的概率来判断它合乎语法的可能性,记一个序列S=(w1,w2,⋯ ,wn)S = (w_1,w_2,\cdots, w_n)S=(w1,w2,⋯,wn),那么:P(S)=P(w1,w2,⋯ ,wn)=P(w1)⋅P(w2∣w1)⋅P(w3∣w1,w2)⋯P(wn∣w1,w2,⋯ ,wn−1)\begin{aligned}P(S)原创 2021-08-30 11:10:27 · 630 阅读 · 0 评论