（二）背景知识 -- 3 概率模型函数化

最新推荐文章于 2022-12-16 11:02:17 发布

Fiona-Dong

最新推荐文章于 2022-12-16 11:02:17 发布

阅读量183

点赞数

分类专栏： Word2Vec-知其然知其所以然

原文链接：https://www.zybuluo.com/Dounm/note/591752#23-%E6%A6%82%E7%8E%87%E6%A8%A1%E5%9E%8B%E5%87%BD%E6%95%B0%E5%8C%96

版权

Word2Vec-知其然知其所以然专栏收录该内容

8 篇文章 3 订阅

订阅专栏

3. 概率模型函数化

机器学习领域存在一种较为通用的做法：
对所考虑的问题建模后，先为其构造一个目标函数，通过优化求得一组最优参数，然后利用最优参数对应的模型来进行预测。

因此，对于N-gram模型，并不需要存储所有可能的概率参数，而是求解对问题建模后得到的目标函数的最优参数（通常好的建模可以使得最优参数的个数远小于所有概率参数的个数），然后计算时对概率进行连乘即可。

对于统计语言模型，通常使用的目标函数为「最大似然函数」：

$\prod_{w\in C}p(w|Context(w))$

即，上下文为 $C o n t e x t (w)$ 时，该词为 $w$ 的概率。
其中， $C$ 为语料库(Corpus)；
$C o n t e x t (w)$ 为词 $w$ 的上下文(Context)。对于N-gram模型， $Context(w_i)=w_{i-n+1}^{i-1}$ 。

实际上，连乘可能导致概率值极小，因此，常采用「最大对数似然」，即目标函数为：

$L=\sum_{w \in C}log \space p(w|Context(w)) \\ 将条件概率p(w|Context(w))视为关于w和Context(w)的函数 \\ =\sum_{w \in C}log \space F(w, Context(w), \theta)$

其中， $\theta$ 为待定参数集。因此，一旦对上式进行优化得到最优参数集 $\theta^*$ 后， $F$ 也就唯一确定。

因此，只需要存储最优参数集，而不需要事先计算并保存所有的概率值。若选取合适的方法来构造函数，可以使得 $\theta$ 中参数的个数远小于N-gram模型中参数的个数。

参考

博客：Word2Vec-知其然知其所以然

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
（二）背景知识 -- 3 概率模型函数化

3. 概率模型函数化机器学习领域存在一种较为通用的做法：对所考虑的问题建模后，先为其构造一个目标函数，通过优化求得一组最优参数，然后利用最优参数对应的模型来进行预测。因此，对于N-gram模型，并不需要存储所有可能的概率参数，而是求解对问题建模后得到的目标函数的最优参数（通常好的建模可以使得最优参数的个数远小于所有概率参数的个数），然后计算时对概率进行连乘即可。对于统计语言模型，通常使用的目标函数为「最大似然函数」：∏w∈Cp(w∣Context(w))\prod_{w\in C}p(w|Cont
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。