基于word2vec的中文词向量训练

最新推荐文章于 2024-02-17 10:26:07 发布

找抓啊

最新推荐文章于 2024-02-17 10:26:07 发布

阅读量1.2k

点赞数

本文链接：https://blog.csdn.net/qq_43746676/article/details/86138302

版权

本文介绍了基于word2vec的中文词向量训练，包括word2vec的来源、基本知识如激活函数、N-gram模型、神经网络语言模型等。详细探讨了CBoW和Skip-gram模型，以及优化方法如Hierarchical Softmax和Negative Sampling，并提供了使用gensim训练中文词向量的实践指导。

摘要由CSDN通过智能技术生成

基于word2vec的中文词向量训练

使用katex解析的数学公式，csdn好像不支持

word2vec来源

Google开源
可以在百万数量级的词典和上亿的数据集上进行高效地训练
该工具得到的训练结果– 词向量（word embedding），可以很好地度量词与词之间的相似性

基本知识

激活函数

神经网络中处理非线性数据
饱和
当一个激活函数h(x)满足[\lim_{n\to +\infty} h’(x)=0]时我们称之为右饱和。
当一个激活函数h(x)满足[\lim_{n\to -\infty} h’(x)=0]时我们称之为左饱和。当一个激活函数，既满足左饱和又满足又饱和时，我们称之为饱和。
硬饱和与软饱和
对任意的(x)，如果存在常数(c)，当(x > c)时恒有 (h’(x) = 0)则称其为右硬饱和，当(x < c)时恒有(h’(x)=0)则称其为左硬饱和。若既满足左硬饱和，又满足右硬饱和，则称这种激活函数为硬饱和。但如果只有在极限状态下偏导数等于0的函数，称之为软饱和。

Sigmoid 函数

神经网络中常用的 激活函数
Sigmoid 函数
函数定义：
[F(x)=\frac{1}{1+e^{-x}}]
函数图像：
函数性质

导数可以用自身的形式来表达

[F’(x)=\frac{e^{-x}}{(1+e^{-x})^2}=F(x)(1-F(x))]

Tanh 函数

Tanh 是 Sigmoid 的变形，与 sigmoid 不同的是，tanh 是 0均值 的。因此，实际应用中，tanh 会比 sigmoid 更好。
Tanh 函数
函数定义：
[F(x)=\frac{e^x-e^{-x}}{e^x+e^{-x}}=2sigmoid(2x)-1]
函数图像：
函数导数
[F’(x)=1-F(x)^2]