【NLP】_03_基础词向量

最新推荐文章于 2022-10-04 18:36:57 发布

DamonDT

最新推荐文章于 2022-10-04 18:36:57 发布

阅读量175

点赞数

分类专栏： NLP

本文链接：https://blog.csdn.net/qq_34330456/article/details/104371287

版权

14 篇文章 0 订阅

订阅专栏

Word2Vec，作为 NLP 领域深度学习的基础，是每个工程师都绕不过的重点话题。虽然从18年年底就诞生出了 Bert，GPT 等预训练模型，横扫 NLP 领域，但其还是基于 Word2Vec 的向量和思想训练出来的。

直接思路 $S o f t m a x$ 形式算出概率最大的那个单词 ( $∣ V ∣$ 表示词库)

$(W_i | W_j ; θ) = {\frac{e^{\bf U_{W_i}\times V_{W_j}}}{\sum_{c\,\epsilon |V|}{e^{\bf U_{c}\times V_{W_j}}}}}$

目标函数 ( $∣ V ∣$ 表示词库，不好优化， $∣ V ∣$ 词库可能非常大，通常采用 Negative Sampling)

${\bf L} = \mathop{\arg\max}_{\theta} \; \prod_{w\,\epsilon\, center} \; \prod_{c\,\epsilon\, context} {\frac{e^{\bf U_{c}\times V_{w}}}{\sum_{c^{'}\epsilon \,|V|}{e^{\bf U_{c^{'}}\times V_{W}}}}}$
$\mathop{\arg\max}_{\theta} \; \sum_{w\,\epsilon\, center} \; \sum_{c\,\epsilon\, context} {\bf U_{c}}\times{\bf V_{w}} -log \sum_{{c^{'}}\epsilon\, |V|} {{e}^{\bf U_{c^{'}}\times \,{\bf V_w}}}$

巧妙思路（表示成 LR 的分类形式）

$(W_i | W_j ; θ) \;→\; P(D=1\,|\,W_i,W_j;\,\theta) = {\frac{1}{1+{e^{(-U_{W_i}\times V_{W_j})}}}}$

目标函数（ $D = 1$ 表示 $W_i$ 和 $W_j$ 同时出现， $D^{'}=0$ 表示 $W_i$ 和 $W_j$ 不能同时出现）

${\bf L} = \mathop{\arg\max}_{\theta} \; \prod_{{(w,\,c)}\,\epsilon \,D} \; P(D=1\,|\,W_i,W_j;\,\theta) \; \prod_{{(w,\,c)}\,\epsilon \,D^{'}} \; P(D^{'}=0\,|\,W_i,W_j;\,\theta)$
$\mathop{\arg\max}_{\theta} \; \prod_{{(w,\,c)}\,\epsilon \,D} \; {\frac{1}{1+{e^{(-U_c\times V_w)}}}} \; \prod_{{(w,\,c)}\,\epsilon \,D^{'}} \; {\frac{1}{1+{e^{(U_c\times V_w)}}}} \;$
$\mathop{\arg\max}_{\theta} \; \sum_{{(w,\,c)}\,\epsilon \,D} log\,\sigma(U_c,\,V_w) \;\;+ \sum_{{(w,\,c)}\,\epsilon \,D^{'}} log\,\sigma(-\,U_c,\,V_w)$

Negative Sampling（负采样方法，解决负样本太大的问题， ${{c^{'}}\,\epsilon \,N(w)}$ 表示随机采样负样本）

${\bf L}= \mathop{\arg\max}_{\theta} \; \sum_{{(w,\,c)}\,\epsilon \,D} 【\;\; log\,\sigma(U_c,\,V_w) \;\;+ \sum_{{c^{'}}\,\epsilon \,N(w)} log\,\sigma(-\,U_{c^{'}},\,V_w) \;\;】$

已传到 GitHub 上
python word2vec.py -train wiki.final.txt -model output_10_dim -dim 10 -cbow 0 -negative 10 -window 5 -min-count 5

$\,\,\,\,\,\,\,\,\, reader => read + er \,\,\,\,\,\,\,\,\, ...$

关注