文章目录
研究背景
前期知识储备
数学知识
- 高等数学中微积分
- 线性代数中的矩阵运算
- 概率论的条件概率
机器学习
- 机器学习中基本的原理以及概念、如逻辑回归分类器、梯度下降方法等
神经网络
- 了解神经网络基本知识
- 知道前馈神经网络和循环神经网络的概念
- 知道语言模型概念
编程
- l了解Pytorch基本使用方法,如数据读取、模型构建等
学习目标
1.了解向量的背景知识
- 历史背景
- 数学背景
2.了解前人的工作
- 前馈神经网络
- RNN语言模型
3.掌握词向量的评价方法
- Cosine/Analagy
- 论文中数据集
4.掌握模型结构
- CBOW
- Skip-gram
- Word2vec中的关键技术
- 层次softmax
- 负采样
- 掌握Word2vec代码
论文储备知识
语言模型
直观概念:语言模型是计算一个句子是句子的概率的模型。
例子:深度之眼的论文课真的很好! 0.8
论文课的深度之眼很真好的! 0.000001
语言模型的应用有很多,这里举一个用在输入法里面的例子,在输入法里面输入拼音:zi ran yu yan chu li ,它返回对应的中文就是一个语言模型:
zi ran yu yan chu li 对应的中文
自然语言处理 0.9
子然预言出力 0.01
基于专家语法规则的语言模型
语言学家企图总结出一套通用的语法规则,比如形容词后面跟名词。但是很难总结出一套通用的语法规则。
**统计语言模型
通过概率计算来刻画语言模型:
某个词出现的概率的计算方法:
用预料的频率来代替概率 :
统计语言模型是通过一个很大的语料来构建的,这个语料被称为背景语料,通过上图中的公式可以计算出每个词出现的频率,用频率来代替概率。
求解方法:频率学派+条件概率
**统计语言模型中的平滑操作
有一些词或者词组在语料库中没有出现过,但是这不能代表它不可能存在。
平滑操作就是给那些没有出现过的词或者词组也给一个比较小的概率。
_Laplace Smoothing_也称为加1平滑:每个词在原来出现次数的基础上加1.
P(w)= c(w) / N ===> P(w) = c(w)+1 / N+V
主要解决了词的问题,但是词组的问题还没得到很好的解决。
平滑操作的问题,可能会导致一个有语法错误的句子和一个正确句子的概率是相同的。
还会引发参数空间过大以及数据稀疏严重。
**马尔科夫假设
下一个词的出现仅依赖于前面的一个词或几个词
**语言模型评价指标:困惑度(Perplexity)
语言模型实质上是一个多分类问题,比如P(w)的计算,输入是空白的,标签就是w
论文导读
论文背景知识
词的表示方式