最优化理论
文章平均质量分 75
Michael_Shentu
感兴趣方向:分布式计算与存储,广告计算学,分布式数据挖掘与机器学习,Hadoop,Spark,HBase
展开
-
最速下降优化算法与共轭梯度算法
在最优化的领域中,这“法”那“法”无穷多,而且还“长得像”——名字相似的多,有时让人觉得很迷惑。在自变量为一维的情况下,也就是自变量可以视为一个标量,此时,一个实数就可以代表它了,这个时候,如果要改变自变量的值,则其要么减小,要么增加,也就是“非左即右“,所以,说到“自变量在某个方向上移动”这个概念的时候,它并不是十分明显;而在自变量为n(n≥2)维的情况下,这个概念就有用了起来:假设自变原创 2014-11-24 13:51:25 · 4447 阅读 · 0 评论 -
模型评估的方法: ROC,AUC,RMSE等指标
在别的地方看到了一篇有关总结模型评估的文章,感觉讲解还是挺有点内容的,转载过来 学习学习 分享下模型评估的方法一般情况来说,F1评分或者R平方(R-Squared value)等数值评分可以告诉我们训练的机器学习模型的好坏。也有其它许多度量方式来评估拟合模型。你应该猜出来,我将提出使用可视化的方法结合数值评分来更直观的评判机器学习模型。接下来的几个部分将分享原创 2017-05-22 14:38:08 · 32117 阅读 · 2 评论 -
GBDT 梯度提升决策树的简单推导
GB, 梯度提升,通过进行M次迭代,每次迭代产生一个回归树模型,我们需要让每次迭代生成的模型对训练集的损失函数最小,而如何让损失函数越来越小呢?我们采用梯度下降的方法,在每次迭代时通过向损失函数的负梯度方向移动来使得损失函数越来越小,这样我们就可以得到越来越精确的模型。假设GBDT模型T有4棵回归树构成:t1,t2,t3,t4,样本标签为Y(y1,y2,y3,.....yn)设定原创 2017-03-14 17:31:53 · 7847 阅读 · 1 评论 -
正则化方法:L1和L2 regularization、数据集扩增、dropout
正则化方法:防止过拟合,提高泛化能力在训练数据不够多时,或者overtraining时,常常会导致overfitting(过拟合)。其直观的表现如下图所示,随着训练过程的进行,模型复杂度增加,在training data上的error渐渐减小,但是在验证集上的error却反而渐渐增大——因为训练出来的网络过拟合了训练集,对训练集外的数据却不work。为了防止overfitt转载 2017-05-14 23:55:08 · 621 阅读 · 0 评论 -
梯度下降的一阶泰勒公式展开证明
在确定损失函数后,通过梯度下降优化算法来估计模型的未知参数:为何根据一阶泰勒展开,对于一个可微函数,对于任意的x,有:,其中是梯度,如果一维情况就是一阶导数。而其中,是两向量之间的夹角。当为180度得时候,g(x)*p可取到最小值,即为下降最快的方向。所以,负梯度方向为函数f(x)下降最快的方向,x为未知参数,对X进行迭代更新如果f(x)是凸原创 2017-03-14 14:28:18 · 11184 阅读 · 0 评论 -
关于ROC AUC指标的详细介绍说明
转发一篇对于ROC AUC 解释比较通俗明了的文章:ROC(Receiver Operating Characteristic)曲线和AUC常被用来评价一个二值分类器(binary classifier)的优劣,对两者的简单介绍见这里。这篇博文简单介绍ROC和AUC的特点,以及更为深入地,讨论如何作出ROC曲线图以及计算AUC。ROC曲线需要提前说明的是,我们转载 2017-01-16 16:57:09 · 5276 阅读 · 0 评论 -
拉格朗日对偶性算法以及在SVM支持向量机中的应用
拉格朗日对偶函数:原创 2017-01-16 16:26:29 · 849 阅读 · 0 评论 -
bagging与boosting两种集成模型的偏差bias以及方差variance 的理解
Bagging对样本重采样,对每一重采样得到的子样本集训练一个模型,最后取平均。由于子样本集的相似性以及使用的是同种模型,因此各模型有近似相等的bias和variance(事实上,各模型的分布也近似相同,但不独立)。由于,所以bagging后的bias和单个子模型的接近,一般来说不能显著降低bias。另一方面,若各子模型独立,则有,此时可以显著降低variance。若各子模型完全相同,则,此时不会原创 2016-12-27 14:03:25 · 13560 阅读 · 5 评论 -
方向导数与梯度
为什么会有方向导数?在微积分课程中,我们知道函数在某一点的导数(微商)代表了函数在该点的变化率。微分和积分,它们的定义都是建立在极限的基础上。对于单变量函数f(x),它在x0处导数是:当x趋近于x0时,函数的改变量与自变量的改变量的比值的极限,即微商(导数)等于差商的极限f′(x0)=limΔx→0f(x0+Δx)−f(x0)Δx对于单变量函数,自变量只有一个,当x趋转载 2016-12-23 13:40:18 · 1010 阅读 · 0 评论 -
梯度概念
一、基本概念梯度下降法,就是利用负梯度方向来决定每次迭代的新的搜索方向,使得每次迭代能使待优化的目标函数逐步减小。梯度下降法是2范数下的最速下降法。 最速下降法的一种简单形式是:x(k+1)=x(k)-a*g(k),其中a称为学习速率,可以是较小的常数。g(k)是x(k)的梯度。二、导数(1)定义 设有定义域和取值都在实数域中的函数 。若 在点转载 2016-12-23 10:10:00 · 25155 阅读 · 0 评论 -
CRF的模型参数学习问题
当一个CRF条件随机场模型参数确定后,基于CRF进行状态序列预测问题,比如给定中文语句观测序列,来预测整个中文语句当中每个词的词性,实质问题就是预测每个句子的隐含词性状态问题,在相关条件转移矩阵等模型参数给定的条件下,利用维特比算法,就能预测出概率最大的隐含状态,从而实现词性识别,本文主要是讨论CRF 的另一个问题,条件随机场的模型参数学习问题。参考了两篇博客以及书中关于条件随机场的相关概念介绍,原创 2018-02-05 17:35:53 · 2881 阅读 · 0 评论