【斯坦福CS224N】笔记——深度自然语言处理Natural Language Processing with Deep Learning

最新推荐文章于 2023-08-18 17:25:16 发布

Joeych1412

最新推荐文章于 2023-08-18 17:25:16 发布

阅读量294

点赞数

文章标签：自然语言处理深度学习人工智能

原文链接：https://www.showmeai.tech/tutorials/36?articleId=231

版权

Lecture 1

1.1 词在计算机中的表达

1.1.1 WordNet

一个包含同义词集和上位词(“is a”关系)的列表的辞典
可以视作1个专家经验总结出来的词汇表
缺点：
- 忽略了词汇的细微差别如：例如“proficient”被列为“good”的同义词。这只在某些上下文中是正确的。
- 缺少单词的新含义，如果有新含义需要人工维护，开销大
- 因为是小部分专家构建的，有一定的主观性
- 构建与调整都需要很多的人力成本
- 无法定量计算出单词相似度

1.1.2 词的离散表征

使用 one-hot独热编码 将每个单词转化为 one-hot vector
在独热向量表示中，向量维度 = 词汇量(如500,000)，以下为一些独热向量编码过后的单词向量示例：

$独热向量编码过后的单词向量示例$
$独热向量编码过后的单词向量示例$

缺点：
- 独热向量离散表征里，所有词向量是正交的，没有联系
- 独热向量没有相似性概念
- 向量维度过大

1.1.3 词的上下文表征

idea：一个单词的意思是由经常出现在它附近的单词给出的

“You shall know a word by the company it keeps” (J. R. Firth 1957: 11)。

当一个单词 $w$ 出现在文本中时，它的上下文是出现在其附近的一组单词(在一个固定大小的窗口中)
基于海量数据，使用 $w$ 的许多上下文来构建 $w$ 的表示
如图所示，banking的含义可以根据上下文的内容表征。

1.2 Word2Vec

1.2.1 词向量表示

为每个单词构建一个稠密表示的向量，使其与出现在相似上下文中的单词向量相似
词向量(word vectors)有时被称为词嵌入(word embeddings)或词表示(word representations)。
稠密词向量是分布式表示(distributed representation)。

1.2.2 Word2Vec原理

Word2vec (Mikolov et al. 2013)是一个学习词向量表征的框架。
核心思路如下：
- 基于海量文本语料库构建
- 词汇表中的每个单词都由一个向量表示（学习完成后会固定）
- 对应语料库文本中的每个位置 $t$ ，有一个中心词 $c$ 和一些上下文(“外部”)单词 $o$
- 使用 $c$ 和 $o$ 的词向量来计算概率 $P (o ∣ c)$ ，即给定中心词推断上下文词汇的概率（反之亦然）
- 不断调整词向量来最大化这个概率

1.2.3 Word2Vec构建词向量

点击链接，文章第3、4节

本文参考：

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【斯坦福CS224N】笔记——深度自然语言处理Natural Language Processing with Deep Learning

【斯坦福CS224N】笔记——深度自然语言处理Natural Language Processing with Deep Learning
复制链接

扫一扫

Joeych1412 CSDN认证博客专家 CSDN认证企业博客

码龄6年

9: 原创

132万+: 周排名

171万+: 总排名

4227: 访问

: 等级

90: 积分

5: 粉丝

5: 获赞

3: 评论

16: 收藏

私信

关注

热门文章

最新评论

【论文笔记】Knowledge Base Question Answering: A Semantic Parsing Perspective
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
KBQA学习资料
CSDN-Ada助手: 恭喜您写了第9篇博客，题目“KBQA学习资料”很有深度，内容也非常有价值。建议您可以继续深入研究这个领域，分享更多有关KBQA的学习资料。相信您的创作会越来越精彩！ CSDN 会根据你创作的博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply9 看奖励名单。
比赛总结：GAIIC 2023 全球人工智能技术创新大赛—算法挑战赛
CSDN-Ada助手: 恭喜您写下了第8篇博客，看到您参加了GAIIC 2023 全球人工智能技术创新大赛—算法挑战赛，真是让人佩服。希望您在比赛中取得了不错的成绩。接下来，我建议您可以进一步深入研究人工智能技术，拓展更多的应用场景，分享给大家。期待您的下一篇博客！ CSDN 会根据你创作的博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply8 看奖励名单。
论文笔记：Complex Knowledge Base Question Answering: A Survey
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
论文笔记：How Does NLP Benefit Legal System: A Summary of Legal Artificial Intelligence
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。