【2019-CS224n】Lecture 01 Introduction and Word Vectors

plan

我们如何表达一个词的意思?

  • 早期方法比如WordNet:建立包含同义词synonym和上位词hypernym(即“is a"的关系)的词库
    • 缺少细微差别,一词多义
    • 缺少单词新的含义,不能及时更新
    • 构建过程过于主观
    • 人工构造
    • 无法计算准确的单词相似度
  • 离散符号-OneHot:在这里插入图片描述
    • 词汇表太大
    • 无法有效的表示两个向量间的相似度
  • 词汇的含义可能与上下文相关,尤其是多义词。
    分布式语义( Distributional semantics):一个词的含义经常由出现在它附近的词所决定。
    在这里插入图片描述
    在这里插入图片描述

word vector

是dense vector(即大多数元素不为零且维度较小的向量),也被称为word embedding 或word representation。它们是分布式表示。
维度:通常不低于50。降为二维进行可视化。
这里是以SKip-gram为例展开的。

papers

Efficient Estimation of Word Representations in Vector Space(original word2vec paper)
Distributed Representations of Words and Phrases and their Compositionality (negative sampling paper)
Word2vec是一个学习单词向量的框架

idea

  • 固定词汇表中的每个单词都由一个向量表示
  • 遍历文本中的每个位置t,其中有一个中心词c和上下文(外部)单词o
  • 使用向量c和o的相似度来计算给定c的o的概率(反之亦然)
  • 不断调整单词向量,以使得上下文词出现概率最大(Skip-Gram
    如图是窗口大小为2,中心词为into的context words的概率表示(预测每个单词周围的单词):
    在这里插入图片描述
    扫描到下一个位置:
    在这里插入图片描述

objective function

  • 极大似然估计:(最大化):这些条件概率的累乘积
    对于每个位置 t = 1 , . . . , T t=1, ..., T t=1,...,T,给定中心单词 w j w_j wj,预测固定大小 m m m的窗口内的概率最大上下文单词
    在这里插入图片描述
    objective function也叫cost or loss function。
    取对数和负平均
  • 目标函数为 ( 平 均 ) 负 对 数 似 然 {\color{Red} (平均)负对数似然} ()(最小化)
    在这里插入图片描述
    最小化目标函数 ⇔ \Leftrightarrow 最大化似然函数 ⇔ \Leftrightarrow 最大化准确率。
  • 如何计算每个条件概率?
    每个词w用两种向量表示:
    • v w v_w vw:是中心词的词向量;
    • u w u_w uw是上下文的词向量.
      因为同一个词,在不同时刻可能作为中心词也可能作为上下文的词。
      prediction function:
      在这里插入图片描述
  • 利用梯度下降算法优化参数训练模型
    这里的 θ \theta θ v c v_c vc,对 v c v_c vc求偏导:
    在这里插入图片描述
    在这里插入图片描述

Gensim本身不支持Glove Vector,需要将Glove文件格式转换为word2vec文件格式
在这里插入图片描述

【2019-CS224n】Assignment1

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值