2017年08月_千君一发

原创为什么L1稀疏L2平滑？

两种解释————————————1、从L1和L2的来源看当你想从一个手头的数据集中学习出一套规则时，贝叶斯学派认为仅仅使用这些数据是不够的，还需要加入先验知识。如果你在损失函数中使用了L1正则项，那么其实质就是加入了拉普拉斯先验分布，即认为数据是符合拉普拉斯分布的；如果你使用了L2正则项，那么就是加入了高斯先验分布，即认为数据是符合高斯分布的。一般由于推导和计算方便，会对分布函数取

2017-08-28 16:06:22 6409 4

原创机器学习笔记——无监督学习

1、有啥用？2、聚类（1）K-Means（2）HAC-分层聚类2、降维（1）PCAPCA的另一种解释与SVD的关系与自动编码的关系PCA的缺点SVD学习预测SVD升级版本SVD的应用其他相关技术

2017-08-25 16:16:52 437

原创机器学习笔记——半监督学习

1、简介2、半监督生成模型具体的为什么呢3、低密度分割例1例2例34、平滑假设实际应用例子实现方法1实现方法25、寻找更好的表达

2017-08-25 10:01:27 438

原创机器学习笔记——集成学习

1、什么时候用集成学习？集成学习有利于减少模型方差，因此当模型复杂度复杂度太高时可以用集成学习方法参加kaggle等比赛的时候2、bagging和boosting的基学习器有一样的特点？bagging的基学习器更强一些，它们学习的对象都是目标任务，最终的预测模型是直接拿子模型的决策结果投票或者做平均；boosting的基学习器更弱一些，可以说是非常弱，它们学习的都只是目标任务的一部

2017-08-24 19:50:38 341

原创深度学习笔记——why “deep”？

1、多层的学习效果往往比单层要好，即便参数的个数一样2、在用C语言进行结构化编程时，我们从来不会把大量的功能写到一个函数里面，而是写很多函数同过函数调用实现目标。神经网络也类似，一个层可以看做一个函数实现了一个功能，多层结构更清晰，功能也更强大。3、如下图所示，如果只有一层的话就很难识别长头发男生，因为其样本太少增加一层实现识别性别的功能，在此基础上进一步区

2017-08-21 20:59:11 345

原创深度学习笔记——CNN

1、为什么需要CNN（卷积神经网络）？CNN其实是一种比FNN（全连接神经网络）要简单的网络结构，也就是说CNN的参数要比FNN少很多。那么，为什么需要这种网络结构呢？假如我们现在要识别一张图片中的一只飞鸟，FNN采用整体策略，把一整只鸟当做目标pattern去识别。CNN呢？CNN在一开始学习的时候就把鸟这个大的目标pattern分成很多小pattern，比如嘴、翅膀、脖子、爪子等，甚至更小

2017-08-20 10:46:55 561

原创深度学习笔记——深度学习技巧

1、模型在训练数据上表现不好，why？（1）过拟合（2）激活函数（3）学习率2、梯度消失？盲目增加网络层数很容易导致发生梯度消失现象，尤其是使用sigmoid作为激活函数的时候。sigmoid函数的特点使得权重很大的改变对输出产生很小的影响，当层数很多时这种影响甚至可以忽略不计。在权重更新环节，靠近输出端的权重梯度较大，靠近输入端的权重梯度很小，这使得后端权重更新的很快、很快就

2017-08-19 16:02:46 396

原创机器学习笔记——逻辑回归

决策函数：sigmoid损失函数：cross-entropy为什么不用平方误差做损失函数？因为我们希望接近最优解的地方梯度小，而远离最优解的地方梯度大。从下图可以看出来，平方误差不满足我们的要求。平方误差在这里不好用是因为sigmoid的导数有一个f项，线性回归使用平方误差就没有这个问题。逻辑回归的

2017-08-18 19:35:22 648

原创机器学习笔记——概率生成模型

假设有两类数据，每一类都有若干个样本；概率生成模型认为每一类数据都服从某一种分布，如高斯分布；从两类训练数据中得到两个高斯分布的密度函数，具体的是获得均值和方差两个参数；测试样本输入到其中一个高斯分布函数，得到的概率值若大于0.5，则说明该样本属于该类，否则属于另一类。算法的核心在于获取分布函数的两个参数。具体的做法是：利用训练数据，构造似然函数，使得该似然函数最大的参数即为所求。事实

2017-08-18 16:44:03 9668 3

原创最大似然估计，高斯分布，高斯混合模型，EM算法

1、最大似然估计似然的概念与概率类似，但是又很不相同。假如随机变量X服从某种分布（比如高斯分布），概率是指在给定参数（均值，方差）的条件下，X=x的可能性；而似然则指X=x的条件下，某一组参数反映了X=x的真实性大小。最常见的应用是最大似然估计。假设有N个数据点，服从某种分布Pr(x;θ)，我们想找到一组参数θ，使得生成这些数据点的概率最大，这个概率就是称为似然函数（Lilel

2017-08-09 16:18:22 10040

li8zi8fa的博客