2016年02月_Michael_Shentu

12月 09月 08月 07月 06月 05月 04月 02月 01月

转载 L2 正则化

在机器学习中，无论是分类还是回归，都可能存在由于特征过多而导致的过拟合问题。当然解决的办法有（1）减少特征，留取最重要的特征。（2）惩罚不重要的特征的权重。但是通常情况下，我们不知道应该惩罚哪些特征的权重取值。通过正则化方法可以防止过拟合，提高泛化能力。先来看看L2正则化方法。对于之前梯度下降讲到的损失函数来说，在代价函数后面加

2016-02-05 14:52:11 1571

原创 L1 与L2

L2 norm就是欧几里德距离 L1 norm就是绝对值相加，又称曼哈顿距离搞统计的人总是喜欢搞什么“变量选择”，变量选择实际上的限制条件是L0 Norm，但这玩艺不好整，于是就转而求L1 Norm(使用均方误差，就是Lasso ,当然在Lasso出来之前搞信号处理的就有过类似的工作),Bishop在书里对着RVM好一通吹牛，其实RVM只是隐含着去近似了一个L0 Norm, 所以得到了

2016-02-03 17:30:12 776

原创正则化理解(一)

机器学习中常常会提到或者用到正则化项，在对目标函数求最优值时，常常通过L1,L2等正则化项来防止过拟合现象，对于正则化可以用来防止模型过拟合现象的问题，展开下讨论，加深理解。先看着两句话1. 正则化就是对最小化经验误差函数上加约束，这样的约束可以解释为先验知识(正则化参数等价于对参数引入先验分布)。约束有引导作用，在优化误差函数的时候倾向于选择满足约束的梯度减少的方向，使最终的解倾向于

2016-02-03 17:23:31 4075 1

转载高斯分布

正态分布是自然科学与行为科学中的定量现象的一个方便模型。各种各样的心理学测试分数和物理现象比如光子计数都被发现近似地服从正态分布。尽管这些现象的根本原因经常是未知的，理论上可以证明如果把许多小作用加起来看做一个变量，那么这个变量服从正态分布(在R.N.Bracewell的Fourier transform and its application中可以找到一种简单的证明)。正态分布出现在许多区

2016-02-03 16:39:43 3411

原创拉普拉斯分布

在概率论与统计学中，拉普拉斯分布是以皮埃尔-西蒙·拉普拉斯的名字命名的一种连续概率分布.由于它可以看作是两个不同位置的指数分布背靠背拼接在一起，所以它也叫作双指数分布.两个相互独立同概率分布指数随机变量之间的差别是按照指数分布的随机时间布朗运动，所以它遵循拉普拉斯分布.如果随机变量的概率密度函数为那么它就是拉普拉斯分布.记为：其中

2016-02-03 16:37:23 27296 1

原创贝叶斯法则与先验概率，后验概率

1.贝叶斯法则机器学习的任务：在给定训练数据D时，确定假设空间H中的最佳假设。最佳假设：一种方法是把它定义为在给定数据D以及H中不同假设的先验概率的有关知识下的最可能假设。贝叶斯理论提供了一种计算假设概率的方法，基于假设的先验概率、给定假设下观察到不同数据的概率以及观察到的数据本身。2.先验概率和后验概率用P(h)表示在没有训练数据前假设h拥有的初始概率。P(h)被

2016-02-03 15:53:10 9433 4

原创样本筛选与特征处理

基于特征化工程进行用户特征化，结合相关的机器学习算法对业务进行挖掘建模，在广告的精准投放、预测、风控等领域中应用的非常广泛。无论是有监督的学习分类算法，还是无监督的聚类也罢，都需要建立特征向量，对特征进行预处理；其中对于有监督的训练时，还需要进行样本的筛选。本章节讲解一下样本选择和特征处理方面的一些方法技巧。在做样本训练前需要挑选样本，需要注意样本不平衡的问题，比如在定向广告预估点击率二元

2016-02-01 10:57:28 9505 1