2016年07月_wolfrevoda

08月 07月 06月 05月 04月 03月 02月 01月

原创集成学习学习笔记（1）

集成学习集成学习，顾名思义就是将多个学习器集成在一起来完成某个任务。其一般结构为：先产生一组个体学习器；然后再用某种策略将这些个体学习器结合起来。但是并不是说把任何的个体学习器结合起来都可以有效果的提升，其对于学习器的准确率和多样性是有一定要求的，如下例所示：我们可以看到，对于第二种学习器集成方式，由于其三个学习器对于测试集的预测结果都是一样的，虽然每个学习器的准确率比较高，但是集合在一起并没

2016-07-29 22:33:14 1291

题目描述：输入数字n，按顺序打印出从1到最大的n位十进制数。比如输入3，则打印出1、2、3、…、999题目分析：对于该题目，打眼一看似乎很简单，但是详细观察后会发现在题目中并没有对输入的数字n有任何的限制，因此此时可能会遇到大数问题，即我们要输出的n位数远远超出了int或long甚至long long所能表示的范围，那么这时候我们该怎么办，下面介绍两种方法：利用字符串来表示一个数字，字符串中的每个

2016-07-27 00:44:15 811

转载大数据处理算法一：Bitmap算法（转）

源地址Bitmap算法腾讯面试题：给20亿个不重复的unsigned int的整数，没排过序的，然后再给一个数，如何快速判断这个数是否在那40亿个数当中并且所耗内存尽可能的少？解析:bitmap算法就好办多了所谓bitmap，就是用每一位来存放某种状态，适用于大规模数据，但数据状态又不是很多的情况。通常是用来判断某个数据存不存在的。例如，要判断一千万个人的状态，每个人只有两种状态：男人，女人，可以用

2016-07-26 15:20:33 806

原创线性判别分析（LDA）学习笔记

线性判别分析线性判别分析又称为Fisher判别分析，因为其最早是由Fisher提出来处理二分类问题。线性判别分析的思想非常的简单，其就是要确定一条直线，当所有样本点投影到该条直线上的时候，能够保证同类样本的投影点尽可能集中，而不同类的样本的投影点则相聚较远。当有一个新样本来的时候，可以将该样本投影到这条直线上并归类到最近的类别中心所在类。假设我们现在样本点归属于两个类A和B，这两类样本的均值向量

2016-07-25 21:48:16 1827

原创线性回归学习笔记

线性回归线性回归线性模型就是通过属性的线性组合来进行预测的函数：f(x)=ω1x1+ω2x2+...+ωdxd+bf(x) = \omega_1x_1+\omega_2x_2+...+\omega_dx_d+b用向量形式可以写成：f(x)=ωTx+bf(x) = \omega^Tx+b当我们学到参数ω,b\omega,b就可以确定模型。因此对于线性回归方法，其目的就是要在一组带标记的数据中学得一

2016-07-25 11:31:46 2544 1

原创牛顿法与拟牛顿法

牛顿法求函数的根牛顿法的最初提出是用来求解方程的根的。我们假设点x∗x^*为函数f(x)f(x)的根，那么有f(x∗)=0f(x^*) = 0。现在我们把函数f(x)f(x)在点xkx_k处一阶泰勒展开有：f(x)=f(xk)+f′(xk)(x−xk)f(x) = f(x_k) + f'(x_k)(x-x_k)那么假设点xk+1x_{k+1}为该方程的根，则有f(xk+1)=f(xk)+f′(xk)

2016-07-21 11:49:43 18140 2

原创梯度下降法学习笔记

我们都知道梯度下降法是求解无约束最优化问题的最常用方法，可是为什么梯度下降可以用来求解最优化问题呢？梯度到底是什么？这里假设我们要解决一个最小值问题minf(x)minf(x)，当我们所研究的对象并不是一个凸函数或者即使是一个凸函数，但是计算量会非常的大，此时我们就会想能否有一种迭代的方法，当我们随机的选取一个点，我们以该点位为起点，然后沿着某个方向能够以最快的速度走到最小值点呢？基于这样的思路，我

2016-07-20 23:11:15 1428

原创机器学习中常用的导数公式和迹公式

常用导数公式：δωTxδω=x\frac{\delta \omega^Tx}{\delta \omega} = xδxωδω=xT\frac{\delta x\omega}{\delta \omega} = x^TδxTωδω=x\frac{\delta x^T\omega}{\delta \omega} = xδωTxTδω=xT\frac{\delta \omega^Tx^T}{\del

2016-07-20 15:38:41 1847

原创贝叶斯学派与频率学派

频率学派对于频率学派，其认为我们所观察到的某些现象其背后的分布是确定的，是一直不变的，我们所需要的就是不断的去接近他。就好像西方人认为上帝是存在的，我们可以通过修行的方式来不断的接近上帝，看清上帝的真面目。因此对于频率学派来说，其通过大量的独立重复实验，观察某种事件出现的频率来预估其出现的概率。针对模型P(x;θ)P(x;\theta)来说，该学派认为模型的参数是存在且固定的，我们要做的就是求出让P

2016-07-19 17:47:07 2058

原创贝叶斯分类器学习笔记

我们知道，对于人类来说学习通常是指通过经验获得知识从而导致可度量的行为变化。也就是说我们通过经验获得了知识，然后这些知识又对我们未来的行为产生了影响。而机器学习则是让机器来进行学习，因此我们也可以认为机器学习同样是让机器通过经验（在计算机中表现为数据）获得知识（知识即为我们的模型），然后基于这些知识（模型）来对我们未来的行为产生影响（即不同的模型在接收到未来的新数据可能会得到不同的label）。对于

2016-07-15 14:51:38 9127

转载圈中最后剩下的数字（转）

源地址题目：n个数字（0,1,…,n-1）形成一个圆圈，从数字0开始，每次从这个圆圈中删除第m个数字（第一个为当前数字本身，第二个为当前数字的下一个数字）。当一个数字删除后，从被删除数字的下一个继续删除第m个数字。求出在这个圆圈中剩下的最后一个数字。分析：本题就是有名的约瑟夫环问题。既然题目有一个数字圆圈，很自然的想法是我们用一个数据结构来模拟这个圆圈。在常用的数据结构中，我们很容易想到用环形列表。

2016-07-13 11:40:42 432

原创偏差与方差学习笔记

偏差与方差我们都知道，泛化误差可以分解为噪声，偏差和方差，即泛化误差是由噪声，偏差和方差共同决定的，但是为什么是由他们三个决定的，这里做一个比较详细的说明。首先，我们先做几个符号的说明： yD：y_D：测试样本xx在数据集中的标记； y：y：测试样本xx的真实标记； f(x;D)：f(x;D)：训练集D上学得模型ff在xx上的预测输出；那么我们可以知道模型的期望预测值为f¯(x)=ED

2016-07-12 21:21:58 2807

原创机器学习模型性能评估方法笔记

模型性能评估综述对于模型性能的评估，我们通常分为一下三步： 1. 对数据集进行划分，分为训练集和测试集两部分； 2. 对模型在测试集上面的泛化性能进行度量； 3. 基于测试集上面的泛化性能，依据假设检验来推广到全部数据集上面的泛化性能数据集的划分对于模型来说，其在训练集上面的误差我们称之为“训练误差”或者“经验误差”，而在测试集上的误差称之为“测试误差”。因为测试集是用来测试学习期对于新样本的

2016-07-12 17:27:02 27135 5