自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 为什么L1稀疏L2平滑?

两种解释————————————1、从L1和L2的来源看当你想从一个手头的数据集中学习出一套规则时,贝叶斯学派认为仅仅使用这些数据是不够的,还需要加入先验知识。如果你在损失函数中使用了L1正则项,那么其实质就是加入了拉普拉斯先验分布,即认为数据是符合拉普拉斯分布的;如果你使用了L2正则项,那么就是加入了高斯先验分布,即认为数据是符合高斯分布的。一般由于推导和计算方便,会对分布函数取

2017-08-28 16:06:22 6409 4

原创 机器学习笔记——无监督学习

1、有啥用?2、聚类(1)K-Means(2)HAC-分层聚类2、降维(1)PCAPCA的另一种解释与SVD的关系与自动编码的关系PCA的缺点SVD学习预测SVD升级版本SVD的应用其他相关技术

2017-08-25 16:16:52 437

原创 机器学习笔记——半监督学习

1、简介2、半监督生成模型具体的为什么呢3、低密度分割例1例2例34、平滑假设实际应用例子实现方法1实现方法25、寻找更好的表达

2017-08-25 10:01:27 438

原创 机器学习笔记——集成学习

1、什么时候用集成学习?集成学习有利于减少模型方差,因此当模型复杂度复杂度太高时可以用集成学习方法参加kaggle等比赛的时候2、bagging和boosting的基学习器有一样的特点?bagging的基学习器更强一些,它们学习的对象都是目标任务,最终的预测模型是直接拿子模型的决策结果投票或者做平均;boosting的基学习器更弱一些,可以说是非常弱,它们学习的都只是目标任务的一部

2017-08-24 19:50:38 341

原创 深度学习笔记——why “deep”?

1、多层的学习效果往往比单层要好,即便参数的个数一样2、在用C语言进行结构化编程时,我们从来不会把大量的功能写到一个函数里面,而是写很多函数同过函数调用实现目标。神经网络也类似,一个层可以看做一个函数实现了一个功能,多层结构更清晰,功能也更强大。3、如下图所示,如果只有一层的话就很难识别长头发男生,因为其样本太少增加一层实现识别性别的功能,在此基础上进一步区

2017-08-21 20:59:11 345

原创 深度学习笔记——CNN

1、为什么需要CNN(卷积神经网络)?CNN其实是一种比FNN(全连接神经网络)要简单的网络结构,也就是说CNN的参数要比FNN少很多。那么,为什么需要这种网络结构呢?假如我们现在要识别一张图片中的一只飞鸟,FNN采用整体策略,把一整只鸟当做目标pattern去识别。CNN呢?CNN在一开始学习的时候就把鸟这个大的目标pattern分成很多小pattern,比如嘴、翅膀、脖子、爪子等,甚至更小

2017-08-20 10:46:55 561

原创 深度学习笔记——深度学习技巧

1、模型在训练数据上表现不好,why?(1)过拟合(2)激活函数(3)学习率2、梯度消失?盲目增加网络层数很容易导致发生梯度消失现象,尤其是使用sigmoid作为激活函数的时候。sigmoid函数的特点使得权重很大的改变对输出产生很小的影响,当层数很多时这种影响甚至可以忽略不计。在权重更新环节,靠近输出端的权重梯度较大,靠近输入端的权重梯度很小,这使得后端权重更新的很快、很快就

2017-08-19 16:02:46 396

原创 机器学习笔记——逻辑回归

决策函数:sigmoid损失函数:cross-entropy为什么不用平方误差做损失函数?因为我们希望接近最优解的地方梯度小,而远离最优解的地方梯度大。从下图可以看出来,平方误差不满足我们的要求。平方误差在这里不好用是因为sigmoid的导数有一个f项,线性回归使用平方误差就没有这个问题。逻辑回归的

2017-08-18 19:35:22 648

原创 机器学习笔记——概率生成模型

假设有两类数据,每一类都有若干个样本;概率生成模型认为每一类数据都服从某一种分布,如高斯分布;从两类训练数据中得到两个高斯分布的密度函数,具体的是获得均值和方差两个参数;测试样本输入到其中一个高斯分布函数,得到的概率值若大于0.5,则说明该样本属于该类,否则属于另一类。    算法的核心在于获取分布函数的两个参数。具体的做法是:利用训练数据,构造似然函数,使得该似然函数最大的参数即为所求。事实

2017-08-18 16:44:03 9668 3

原创 最大似然估计,高斯分布,高斯混合模型,EM算法

1、最大似然估计似然的概念与概率类似,但是又很不相同。假如随机变量X服从某种分布(比如高斯分布),概率是指在给定参数(均值,方差)的条件下,X=x的可能性;而似然则指X=x的条件下,某一组参数反映了X=x的真实性大小。最常见的应用是最大似然估计。假设有N个数据点,服从某种分布Pr(x;θ),我们想找到一组参数θ,使得生成这些数据点的概率最大,这个概率就是称为似然函数(Lilel

2017-08-09 16:18:22 10040

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除