NLP入门必知必会(一)：Word Vectors

最新推荐文章于 2023-10-19 15:37:36 发布

Datawhale

最新推荐文章于 2023-10-19 15:37:36 发布

阅读量647

点赞数

本文链接：https://blog.csdn.net/Datawhale/article/details/107148117

版权

↑↑↑关注后"星标"Datawhale

每日干货 & 每月组队学习，不错过

Datawhale干货

作者：芦冬生，Datawhale优秀学习者，北京理工大学

自然语言处理( NLP )是信息时代最重要的技术之一，也是人工智能的重要组成部分。NLP的应用无处不在，因为人们几乎用语言交流一切：网络搜索、广告、电子邮件、客户服务、语言翻译、医疗报告等。

近年来，深度学习方法在许多不同的NLP任务中获得了非常高的性能，同时也吸引了越来越多的人加入学习NLP的大潮中。应广大学习者要求，Datawhale正式开启NLP专辑系列，提供NLP入门方向和指引，希望能帮助到大家。

本系列专辑以斯坦福的CS224N教学视频为基础，整理其课堂笔记、拓展作者的理解和学习感悟，帮助大家全面了解NLP深度学习的前沿研究。

现在，我们开启预训练模型(一)：Word vector。

本文目录：

1. 人类语言和词义

- 如何表达一个单词的含义
- 在计算机中如何具有可用的含义
- wordNet存在的问题
- 将单词表示为离散符号
- 单词作为离散符号存在的问题
- 通过上下文表示单词
- 词向量
- 词义作为神经词向量-可视化

2. Word2Vec介绍

- Word2Vec概述
- Word2Vec：目标函数
- 带矢量的Word2Vec概述
- Word2Vec：预测功能
- 通过优化参数来训练模型
- 训练模型：计算所有矢量梯度

3. Word2Vec梯度的导数

- 链式法则
- 交互式白板会议
- 计算所有梯度
- Word2vec：更多详细信息

4. 常用工具总结

- 梯度下降
- 随机梯度下降

一、人类语言和词义

1.1 我们如何表示一个单词的含义？

定义：含义（韦伯斯特词典）

一个词或词组表示的意思；
人用这个单词，符号时表达的意思；
一个词在写作，艺术等作品中表达意思。

最普遍的意义语言学思维方式:

能指（符号）⟺所指（思想或事物）

=指称语义

1.2 我们在计算机中如何具有可用的含义？

常见解决方案：使用 WordNet，一个同义词库，包含同义词集和上位词列表（“是”关系）

例如包含“good”的同义词集

# 导入初始包
# pip install nltkimport nltk
#必须下载对应的wordnet包
nltk.download('wordnet')
from nltk.corpus import wordnet as wn
poses = {'n':'noun','v':'verb','s':'adj(s)','a':'adj','r':'adv'}
for synset in wn.synsets("good"):
    print("{}:{}".format(poses[synset.pos()],",".join([l.name() for l in synset.lemmas()])))

例如 "panda"的化身

# 导入初始包# pip install nltk
import nltk
#必须下载对应的wordnet包
nltk.download('wordnet')
from nltk.corpus import wordnet as wn
panda = wn.synset("panda.n.01")
hyper = lambda s: s.hypernyms()
list(panda.closure(hyper))