上海复旦大学吴立德教授深度学习课程六

最新推荐文章于 2020-09-22 00:06:26 发布

我叫小王同学

最新推荐文章于 2020-09-22 00:06:26 发布

阅读量1.8k

点赞数

分类专栏： DeepLearning 文章标签：深度学习

本文链接：https://blog.csdn.net/wenxuegeng/article/details/51671911

版权

DeepLearning 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

神经概率语言模型

语言模型

词典

$D = \{ \omega^{(1)}, \omega^{(2)}, \dots , \omega^{(n)} \}$
$\omega = \omega_1\omega_2\dots\omega_n$
其中 $\omega$ 是字符串， $\omega_i$ 与 $\omega^{(i)}$ 指代同一个词。

概率模型

假设字符串中词出现的概率具有平稳性，即词的概率与此出现在字符串的位置无关。
字符串出现的概率为
$p(s)=p(\omega_1，\omega_2，\dots，\omega_n )$
根据全概率公式可以得出
$p(s) = p(\omega_1)p(\omega_2|\omega_1) \dots p(\omega_n|\omega_1\dots\omega_{n-1})$
通过以上公式可以通过求解
$p(\omega_i|\omega_1\dots\omega_{i-1})$
得出全概率。
求解方法若采用技术的方法直接做除法
$p(\omega_i|\omega_1\dots\omega_{i-1}) = \frac{count(\omega_1\dots\omega_{i-1}\omega_i)}{count(\omega_1\dots\omega_{i-1})}$
问题：词语之间组合爆炸，数据稀疏严重

基于马尔科夫假设

假设当前词只依赖于它前面一或者多个词，即所谓的n-gram。
bigram
$p(s) = p(\omega_1)p(\omega_2|\omega_1) \dots p(\omega_n|\omega_{n-1})$
trigram
$p(s) = p(\omega_1)p(\omega_2|\omega_1) \dots p(\omega_n|\omega_{n-2}\omega_{n-1})$
求解
$p(\omega_i|\omega_{i-1}) = \frac{count(\omega_i,\omega_{i-1})}{count(\omega_{i-1})}$
$可能出现的问题：零概率问题$

词向量

自然语言理解的问题要转化为机器学习的问题，第一步肯定是要找一种方法把这些符号数学化。
　　NLP 中最直观，也是到目前为止最常用的词表示方法是 One-hot Representation，这种方法把每个词表示为一个很长的向量。这个向量的维度是词表大小，其中绝大多数元素为 0，只有一个维度的值为 1，这个维度就代表了当前的词。
　　举个栗子，
　　“话筒”表示为 [0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 …]
　　“麦克”表示为 [0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 …]
　　每个词都是茫茫 0 海中的一个 1。

词向量详细说明