(二)背景知识 -- 3 概率模型函数化

3. 概率模型函数化

机器学习领域存在一种较为通用的做法:
对所考虑的问题建模后,先为其构造一个目标函数,通过优化求得一组最优参数,然后利用最优参数对应的模型来进行预测。

因此,对于N-gram模型,并不需要存储所有可能的概率参数,而是求解对问题建模后得到的目标函数的最优参数(通常好的建模可以使得最优参数的个数远小于所有概率参数的个数),然后计算时对概率进行连乘即可。

对于统计语言模型,通常使用的目标函数为「最大似然函数」:

∏ w ∈ C p ( w ∣ C o n t e x t ( w ) ) \prod_{w\in C}p(w|Context(w)) wCp(wContext(w))

即,上下文为 C o n t e x t ( w ) Context(w) Context(w)时,该词为 w w w的概率。
其中, C C C为语料库(Corpus);
C o n t e x t ( w ) Context(w) Context(w)为词 w w w的上下文(Context)。对于N-gram模型, C o n t e x t ( w i ) = w i − n + 1 i − 1 Context(w_i)=w_{i-n+1}^{i-1} Context(wi)=win+1i1

实际上,连乘可能导致概率值极小,因此,常采用「最大对数似然」,即目标函数为:

L = ∑ w ∈ C l o g   p ( w ∣ C o n t e x t ( w ) ) 将 条 件 概 率 p ( w ∣ C o n t e x t ( w ) ) 视 为 关 于 w 和 C o n t e x t ( w ) 的 函 数 = ∑ w ∈ C l o g   F ( w , C o n t e x t ( w ) , θ ) L=\sum_{w \in C}log \space p(w|Context(w)) \\ 将条件概率p(w|Context(w))视为关于w和Context(w)的函数 \\ =\sum_{w \in C}log \space F(w, Context(w), \theta) L=wClog p(wContext(w))p(wContext(w))wContext(w)=wClog F(w,Context(w),θ)

其中, θ \theta θ为待定参数集。因此,一旦对上式进行优化得到最优参数集 θ ∗ \theta^* θ后, F F F也就唯一确定。

因此,只需要存储最优参数集,而不需要事先计算并保存所有的概率值。若选取合适的方法来构造函数,可以使得 θ \theta θ中参数的个数远小于N-gram模型中参数的个数。



参考

博客:Word2Vec-知其然知其所以然

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值