一种利用 Cumulative Penalty 训练 L1 正则 Log-linear 模型的随机梯度下降法

最新推荐文章于 2022-05-25 13:33:14 发布

皮果提

最新推荐文章于 2022-05-25 13:33:14 发布

阅读量4.7k

点赞数 6

分类专栏：机器学习文章标签：随机梯度下降 Log-Linear 最大熵模型 Cumulative Penalty L1-regularization

本文链接：https://blog.csdn.net/itplus/article/details/30049501

版权

机器学习专栏收录该内容

37 篇文章 16 订阅

订阅专栏

  
       Log-Linear 模型（也叫做最大熵模型）是 NLP 领域中使用最为广泛的模型之一，其训练常采用最大似然准则，且为防止过拟合，往往在目标函数中加入（可以产生稀疏性的） L1 正则。但对于这种带 L1 正则的最大熵模型，直接采用标准的随机梯度下降法（SGD）会出现效率不高和难以真正产生稀疏性等问题。

       本文为阅读作者 Yoshimasa Tsuruoka, Jun’chi Tsujii 和 Sophia Ananiadou 的论文 Stochastic Gradient Descent Training for L1-regularized Log-linear Models with Cumulative Penalty （2009）后整理的读书笔记，文中提出了一种基于累积惩罚的 SGD 方法，可以克服上述提到的两个问题。

作者: peghoty

出处: http://blog.csdn.net/itplus/article/details/30049501

欢迎转载/分享, 但请务必声明文章出处.

皮果提

关注

6
点赞
踩
7

收藏

觉得还不错? 一键收藏
1
评论
一种利用 Cumulative Penalty 训练 L1 正则 Log-linear 模型的随机梯度下降法

Log-Linear 模型（也叫做最大熵模型）是 NLP 领域中使用最为广泛的模型之一，其训练常采用最大似然准则，且为防止过拟合，往往在目标函数中加入（可以产生稀疏性的） L1 正则。但对于这种带 L1 正则的最大熵模型，直接采用标准的随机梯度下降法（SGD）会出现效率不高和难以真正产生稀疏性等问题。本文为阅读论文 Stochastic Gradient Descent Training for L1-regularized Log-linear Models with Cumulative Penalty
复制链接

扫一扫