NLP
文章平均质量分 77
NLP新手上路
一杯敬朝阳一杯敬月光
生命不息,代码不止
展开
-
paper 阅读 - BERT: Pre-training of Deep Bidirectional Transformers forLanguage Understanding
paper阅读,BERT,论文发布于2019原创 2022-10-16 14:04:42 · 250 阅读 · 0 评论 -
Transformer - Attention Is All You Need - 跟李沐学AI
Transformer paper 详细阅读原创 2022-09-18 00:38:16 · 1080 阅读 · 0 评论 -
NLP-新闻主题分类任务
笔记原创 2022-09-11 03:19:29 · 1898 阅读 · 2 评论 -
Efficient Estimation of Word Representations in Vector Space 笔记
先上这篇paper链接:https://arxiv.org/pdf/1301.3781.pdf摘要这篇paper介绍了两种可从大规模数据集计算continuous vector representations of words的模型。(这边的continuous或可理解为上下文中心词是连在一起的;亦或相对于one-hot编码的非0即1,各维度上都是实数)。在单词相似性任务中衡量这些representations 的性能,并将结果与以前基于不同类型神经网络的优秀的模型进行比较。在更低的计算成本下,准确原创 2022-02-17 01:26:45 · 941 阅读 · 0 评论 -
Distributed Representations of Words and Phrasesand their Compositionality
摘要首先表明continuous Skip-gram 模型学习到的distributed vector representations 可以捕获到语法和语义关系。对高频词的下采样有助于提升训练速度,且可以learn more regular word representations。用negative sampling来代替hierarchical softmax 。word representations无法区别词序,也无法表示短语。文中举例,“Air Canada”(加拿大航空公司)的含义是..原创 2022-01-13 01:58:58 · 510 阅读 · 0 评论 -
循环神经网络 - 《动手学深度学习》笔记
1. 语言模型给定一个长度为T的词的序列,语言模型计算该序列的概率为,依据乘法定理,我们可以展开为。1.1 n元语法n元语法,是基于n-1阶马尔可夫链的概率语言模型,即一个词的出现仅与前面的n-1个词有关。例如一元语法(n=1),每一个词的出现仅与前面0个词相关,其概率语言模型可以直接频率相乘,二元语法(n=2),每一个词的出现仅与前面的1个词相关,这种方法一旦n确定了,即强制的限定了一个词的出现与前面的多少个词相关,可以理解为硬性的记忆了固定长度的序列,且一旦n过大,会导致高维稀原创 2022-01-03 22:42:36 · 640 阅读 · 2 评论