donghuantuo5253-CSDN博客

转载【原创】深度神经网络(Deep Neural Network, DNN)

线性模型通过特征间的现行组合来表达“结果-特征集合”之间的对应关系。由于线性模型的表达能力有限，在实践中，只能通过增加“特征计算”的复杂度来优化模型。比如，在广告CTR预估应用中，除了“标题长度、描述长度、位次、广告id，cookie“等这样的简单原始特征，还有大量的组合特征（比如”位次-cookie“ 表示用户对位次的偏好）。事实上，现在很多搜索引擎的广告系统用的都是Logistic ...

2015-07-16 21:06:00 777

转载【原创】 Shuffling

在机器学习领域中，经常会听到“shuffling"这个术语。那么，shuffling到底是什么意思呢。通常，shuffling指的是在SGD怎样依赖训练数据输入顺序的算法中，将训练数据随机打乱，达到让SGD这样的算法得到与Batch算法类似结果的方法。如上图所示，如果训练数据按1，2，3，...，10，11的顺序输入，采用sgd训练，得到的模型可能一开始是绿线，然后转为红线。...

2015-06-30 21:10:00 371

转载【原创】batch-GD， SGD， Mini-batch-GD， Stochastic GD， Online-GD -- 大数据背景下的梯度训练算法...

机器学习中梯度下降（Gradient Descent， GD）算法只需要计算损失函数的一阶导数，计算代价小，非常适合训练数据非常大的应用。梯度下降法的物理意义很好理解，就是沿着当前点的梯度方向进行线搜索，找到下一个迭代点。但是，为什么有会派生出 batch、mini-batch、online这些GD算法呢？原来，batch、mini-batch、SGD、online的区别在于训练...

2015-06-06 18:27:00 299

转载【原创】牛顿法和拟牛顿法 -- BFGS, L-BFGS, OWL-QN

数据、特征和数值优化算法是机器学习的核心，而牛顿法及其改良（拟牛顿法）是机器最常用的一类数字优化算法，今天就从牛顿法开始，介绍几个拟牛顿法算法。本博文只介绍算法的思想，具体的数学推导过程不做介绍。1. 牛顿法牛顿法的核心思想是”利用函数在当前点的一阶导数，以及二阶导数，寻找搜寻方向“（回想一下更简单的梯度下降法，她只用了当前点一阶导数信息决定搜索方向）。牛顿法的迭代公式是（稍...

2015-05-28 17:18:00 187

转载【原创】回溯线搜索 Backtracking line search

机器学习中很多数值优化算法都会用到线搜索（line search)。线搜索的目的是在搜索方向上找到是目标函数\(f(x)\)最小的点。然而，精确找到最小点比较耗时，由于搜索方向本来就是近似，所以用较小的代价找到最小点的近似就可以了。Backtracking Line Search(BLS)就是这么一种线搜索算法。BLS算法的思想是，在搜索方向上，先设置一个初始步长\({\alpha...

2015-05-27 20:41:00 1595

转载【原创】寻找方程等于0的数值算法总结

机器学习中，很多问题都可以归结为寻找 f(x)=0 的点（例如，凸优化问题，寻找导数为0的点）。很多时候f(x)=0的解析解很难计算，下面，我们就总结一下该问题的数值计算方法。1. Newton's Method（牛顿法）牛顿法是利用函数在当前点的切线作为函数的近似，寻找当前点切线=0的点，作为下一个搜寻点。牛顿法的迭代公式如下：\[{x_{n + 1}} = {x_n} -...

2015-05-27 15:13:00 570

转载正则化（Regularization)

正则化(Regularization)是机器学习中抑制过拟合问题的常用算法，常用的正则化方法是在损失函数(Cost Function)中添加一个系数的\(l1 - norm\)或\(l2 - norm\)项，用来抑制过大的模型参数，从而缓解过拟合现象。\(l1 - norm\)的正则项还具有特征选择的能力，而\(l2 - norm\)的正则项没有。直观上，对于小于1的模型参数，\(l...

2015-05-19 20:08:00 92

转载梯度下降法和牛顿法

梯度下降法和牛顿法是最常见的两个模型训练算法了，现在对这两个算法做一个比较：梯度下降法牛顿法迭代公式\[{w^{(k + 1)}} = {w^{(k)}} - \alpha \nabla J({w^{(k)}})\]\[{w^{(k + 1)}} = {w^{(k)}} - {H^{ - 1}}({w^{(k)}})\nabla J({w^{...

2015-05-18 16:07:00 61

转载逻辑回归损失函数(cost function)

逻辑回归模型预估的是样本属于某个分类的概率，其损失函数(Cost Function)可以像线型回归那样，以均方差来表示；也可以用对数、概率等方法。损失函数本质上是衡量”模型预估值“到“实际值”的距离，选取好的“距离”单位，可以让模型更加准确。1. 均方差距离\[{J_{sqrt}}\left( w \right) = {\sum\limits_{i = 1}^m {{y_i}\l...

2015-05-18 15:25:00 594

转载 Logistic Regression

逻辑回归（Logistic Regression，LR）应该是互联网行业使用最广的分类模型了。CTR预估、反作弊、推荐系统等等领域都在大量使用LR模型。近几年，DNN有逐渐取代LR的趋势，但LR仍然有着理论完备、训练速度快、物理意义清晰等优势。对于业务发展初期，LR仍然是首选。最后，LR模型本身并不复杂，成功的关键在于特征工程（Feature Engineering)。特征工程以后会有专...

2015-05-15 19:28:00 84

转载 Deep Learning Overview

[Ref:http://en.wikipedia.org/wiki/Deep_learning]Definition:a branch of machine learning based on a set of algorithms that attempt to model high-level abstractions in data by using model arch...

2015-05-13 20:56:00 144

donghuantuo5253的博客