自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

转载 【原创】深度神经网络(Deep Neural Network, DNN)

线性模型通过特征间的现行组合来表达“结果-特征集合”之间的对应关系。由于线性模型的表达能力有限,在实践中,只能通过增加“特征计算”的复杂度来优化模型。比如,在广告CTR预估应用中,除了“标题长度、描述长度、位次、广告id,cookie“等这样的简单原始特征,还有大量的组合特征(比如”位次-cookie“ 表示用户对位次的偏好)。事实上,现在很多搜索引擎的广告系统用的都是Logistic ...

2015-07-16 21:06:00 758

转载 【原创】 Shuffling

在机器学习领域中,经常会听到“shuffling"这个术语。那么,shuffling到底是什么意思呢。通常,shuffling指的是在SGD怎样依赖训练数据输入顺序的算法中,将训练数据随机打乱,达到让SGD这样的算法得到与Batch算法类似结果的方法。如上图所示,如果训练数据按1,2,3,...,10,11的顺序输入,采用sgd训练,得到的模型可能一开始是绿线,然后转为红线。...

2015-06-30 21:10:00 359

转载 【原创】batch-GD, SGD, Mini-batch-GD, Stochastic GD, Online-GD -- 大数据背景下的梯度训练算法...

机器学习中梯度下降(Gradient Descent, GD)算法只需要计算损失函数的一阶导数,计算代价小,非常适合训练数据非常大的应用。梯度下降法的物理意义很好理解,就是沿着当前点的梯度方向进行线搜索,找到下一个迭代点。但是,为什么有会派生出 batch、mini-batch、online这些GD算法呢?原来,batch、mini-batch、SGD、online的区别在于训练...

2015-06-06 18:27:00 281

转载 【原创】牛顿法和拟牛顿法 -- BFGS, L-BFGS, OWL-QN

数据、特征和数值优化算法是机器学习的核心,而牛顿法及其改良(拟牛顿法)是机器最常用的一类数字优化算法,今天就从牛顿法开始,介绍几个拟牛顿法算法。本博文只介绍算法的思想,具体的数学推导过程不做介绍。1. 牛顿法牛顿法的核心思想是”利用函数在当前点的一阶导数,以及二阶导数,寻找搜寻方向“(回想一下更简单的梯度下降法,她只用了当前点一阶导数信息决定搜索方向)。牛顿法的迭代公式是(稍...

2015-05-28 17:18:00 169

转载 【原创】回溯线搜索 Backtracking line search

机器学习中很多数值优化算法都会用到线搜索(line search)。线搜索的目的是在搜索方向上找到是目标函数\(f(x)\)最小的点。然而,精确找到最小点比较耗时,由于搜索方向本来就是近似,所以用较小的代价找到最小点的近似就可以了。Backtracking Line Search(BLS)就是这么一种线搜索算法。BLS算法的思想是,在搜索方向上,先设置一个初始步长\({\alpha...

2015-05-27 20:41:00 1557

转载 【原创】寻找方程等于0的数值算法总结

机器学习中,很多问题都可以归结为寻找 f(x)=0 的点(例如,凸优化问题,寻找导数为0的点)。很多时候f(x)=0的解析解很难计算,下面,我们就总结一下该问题的数值计算方法。1. Newton's Method(牛顿法)牛顿法是利用函数在当前点的切线作为函数的近似,寻找当前点切线=0的点,作为下一个搜寻点。牛顿法的迭代公式如下:\[{x_{n + 1}} = {x_n} -...

2015-05-27 15:13:00 492

转载 正则化(Regularization)

正则化(Regularization)是机器学习中抑制过拟合问题的常用算法,常用的正则化方法是在损失函数(Cost Function)中添加一个系数的\(l1 - norm\)或\(l2 - norm\)项,用来抑制过大的模型参数,从而缓解过拟合现象。\(l1 - norm\)的正则项还具有特征选择的能力,而\(l2 - norm\)的正则项没有。直观上,对于小于1的模型参数,\(l...

2015-05-19 20:08:00 78

转载 梯度下降法和牛顿法

梯度下降法和牛顿法是最常见的两个模型训练算法了,现在对这两个算法做一个比较:梯度下降法牛顿法迭代公式\[{w^{(k + 1)}} = {w^{(k)}} - \alpha \nabla J({w^{(k)}})\]\[{w^{(k + 1)}} = {w^{(k)}} - {H^{ - 1}}({w^{(k)}})\nabla J({w^{...

2015-05-18 16:07:00 53

转载 逻辑回归损失函数(cost function)

逻辑回归模型预估的是样本属于某个分类的概率,其损失函数(Cost Function)可以像线型回归那样,以均方差来表示;也可以用对数、概率等方法。损失函数本质上是衡量”模型预估值“到“实际值”的距离,选取好的“距离”单位,可以让模型更加准确。1. 均方差距离\[{J_{sqrt}}\left( w \right) = {\sum\limits_{i = 1}^m {{y_i}\l...

2015-05-18 15:25:00 577

转载 Logistic Regression

逻辑回归(Logistic Regression,LR)应该是互联网行业使用最广的分类模型了。CTR预估、反作弊、推荐系统等等领域都在大量使用LR模型。近几年,DNN有逐渐取代LR的趋势,但LR仍然有着理论完备、训练速度快、物理意义清晰等优势。对于业务发展初期,LR仍然是首选。最后,LR模型本身并不复杂,成功的关键在于特征工程(Feature Engineering)。特征工程以后会有专...

2015-05-15 19:28:00 76

转载 Deep Learning Overview

[Ref:http://en.wikipedia.org/wiki/Deep_learning]Definition:a branch of machine learning based on a set of algorithms that attempt to model high-level abstractions in data by using model arch...

2015-05-13 20:56:00 133

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除