Word2vec

本文详细介绍了Word2vec的研究背景,从语言模型的基础知识到前馈神经网络与循环神经网络的语言模型,再到Skip-gram和CBOW的关键技术,如层次softmax和负采样。论文展示了Word2vec在提高训练效率和效果方面的创新,包括新的模型结构和优化方法,并通过实验展示了其在语义和语法推理任务上的优秀性能。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

研究背景

前期知识储备

数学知识

  • 高等数学中微积分
  • 线性代数中的矩阵运算
  • 概率论的条件概率

机器学习

  • 机器学习中基本的原理以及概念、如逻辑回归分类器、梯度下降方法等

神经网络

  • 了解神经网络基本知识
  • 知道前馈神经网络和循环神经网络的概念
  • 知道语言模型概念

编程

  • l了解Pytorch基本使用方法,如数据读取、模型构建等

学习目标

1.了解向量的背景知识

  • 历史背景
  • 数学背景

2.了解前人的工作

  • 前馈神经网络
  • RNN语言模型

3.掌握词向量的评价方法

  • Cosine/Analagy
  • 论文中数据集

4.掌握模型结构

  • CBOW
  • Skip-gram
  1. Word2vec中的关键技术
  • 层次softmax
  • 负采样
  1. 掌握Word2vec代码

论文储备知识

语言模型

直观概念:语言模型是计算一个句子是句子的概率的模型。
例子:深度之眼的论文课真的很好! 0.8
论文课的深度之眼很真好的! 0.000001
语言模型的应用有很多,这里举一个用在输入法里面的例子,在输入法里面输入拼音:zi ran yu yan chu li ,它返回对应的中文就是一个语言模型:

zi ran yu yan chu li 对应的中文

自然语言处理 0.9

子然预言出力 0.01

基于专家语法规则的语言模型

语言学家企图总结出一套通用的语法规则,比如形容词后面跟名词。但是很难总结出一套通用的语法规则。

**统计语言模型

通过概率计算来刻画语言模型:

在这里插入图片描述

某个词出现的概率的计算方法:

用预料的频率来代替概率 :

在这里插入图片描述

统计语言模型是通过一个很大的语料来构建的,这个语料被称为背景语料,通过上图中的公式可以计算出每个词出现的频率,用频率来代替概率。

求解方法:频率学派+条件概率

在这里插入图片描述

**统计语言模型中的平滑操作

有一些词或者词组在语料库中没有出现过,但是这不能代表它不可能存在。
平滑操作就是给那些没有出现过的词或者词组也给一个比较小的概率。
_Laplace Smoothing_也称为加1平滑:每个词在原来出现次数的基础上加1.

P(w)= c(w) / N ===> P(w) = c(w)+1 / N+V

主要解决了词的问题,但是词组的问题还没得到很好的解决。
平滑操作的问题,可能会导致一个有语法错误的句子和一个正确句子的概率是相同的。
还会引发参数空间过大以及数据稀疏严重。

**马尔科夫假设

下一个词的出现仅依赖于前面的一个词或几个词

在这里插入图片描述

**语言模型评价指标:困惑度(Perplexity)

语言模型实质上是一个多分类问题,比如P(w)的计算,输入是空白的,标签就是w

论文导读

论文背景知识

词的表示方式

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值