自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 资源 (7)
  • 问答 (3)
  • 收藏
  • 关注

原创 集成学习学习笔记(1)

集成学习集成学习,顾名思义就是将多个学习器集成在一起来完成某个任务。其一般结构为:先产生一组个体学习器;然后再用某种策略将这些个体学习器结合起来。但是并不是说把任何的个体学习器结合起来都可以有效果的提升,其对于学习器的准确率和多样性是有一定要求的,如下例所示:我们可以看到,对于第二种学习器集成方式,由于其三个学习器对于测试集的预测结果都是一样的,虽然每个学习器的准确率比较高,但是集合在一起并没

2016-07-29 22:33:14 1291

原创 打印1到最大的n位数

题目描述:输入数字n,按顺序打印出从1到最大的n位十进制数。比如输入3,则打印出1、2、3、…、999题目分析:对于该题目,打眼一看似乎很简单,但是详细观察后会发现在题目中并没有对输入的数字n有任何的限制,因此此时可能会遇到大数问题,即我们要输出的n位数远远超出了int或long甚至long long所能表示的范围,那么这时候我们该怎么办,下面介绍两种方法:利用字符串来表示一个数字,字符串中的每个

2016-07-27 00:44:15 811

转载 大数据处理算法一:Bitmap算法(转)

源地址Bitmap算法腾讯面试题:给20亿个不重复的unsigned int的整数,没排过序的,然后再给一个数,如何快速判断这个数是否在那40亿个数当中并且所耗内存尽可能的少?解析:bitmap算法就好办多了所谓bitmap,就是用每一位来存放某种状态,适用于大规模数据,但数据状态又不是很多的情况。通常是用来判断某个数据存不存在的。例如,要判断一千万个人的状态,每个人只有两种状态:男人,女人,可以用

2016-07-26 15:20:33 806

原创 线性判别分析(LDA)学习笔记

线性判别分析线性判别分析又称为Fisher判别分析,因为其最早是由Fisher提出来处理二分类问题。线性判别分析的思想非常的简单,其就是要确定一条直线,当所有样本点投影到该条直线上的时候,能够保证同类样本的投影点尽可能集中,而不同类的样本的投影点则相聚较远。当有一个新样本来的时候,可以将该样本投影到这条直线上并归类到最近的类别中心所在类。 假设我们现在样本点归属于两个类A和B,这两类样本的均值向量

2016-07-25 21:48:16 1827

原创 线性回归学习笔记

线性回归线性回归线性模型就是通过属性的线性组合来进行预测的函数:f(x)=ω1x1+ω2x2+...+ωdxd+bf(x) = \omega_1x_1+\omega_2x_2+...+\omega_dx_d+b用向量形式可以写成:f(x)=ωTx+bf(x) = \omega^Tx+b当我们学到参数ω,b\omega,b就可以确定模型。 因此对于线性回归方法,其目的就是要在一组带标记的数据中学得一

2016-07-25 11:31:46 2544 1

原创 牛顿法与拟牛顿法

牛顿法求函数的根牛顿法的最初提出是用来求解方程的根的。我们假设点x∗x^*为函数f(x)f(x)的根,那么有f(x∗)=0f(x^*) = 0。现在我们把函数f(x)f(x)在点xkx_k处一阶泰勒展开有:f(x)=f(xk)+f′(xk)(x−xk)f(x) = f(x_k) + f'(x_k)(x-x_k)那么假设点xk+1x_{k+1}为该方程的根,则有f(xk+1)=f(xk)+f′(xk)

2016-07-21 11:49:43 18140 2

原创 梯度下降法学习笔记

我们都知道梯度下降法是求解无约束最优化问题的最常用方法,可是为什么梯度下降可以用来求解最优化问题呢?梯度到底是什么?这里假设我们要解决一个最小值问题minf(x)minf(x),当我们所研究的对象并不是一个凸函数或者即使是一个凸函数,但是计算量会非常的大,此时我们就会想能否有一种迭代的方法,当我们随机的选取一个点,我们以该点位为起点,然后沿着某个方向能够以最快的速度走到最小值点呢?基于这样的思路,我

2016-07-20 23:11:15 1428

原创 机器学习中常用的导数公式和迹公式

常用导数公式:δωTxδω=x\frac{\delta \omega^Tx}{\delta \omega} = xδxωδω=xT\frac{\delta x\omega}{\delta \omega} = x^TδxTωδω=x\frac{\delta x^T\omega}{\delta \omega} = xδωTxTδω=xT\frac{\delta \omega^Tx^T}{\del

2016-07-20 15:38:41 1847

原创 贝叶斯学派与频率学派

频率学派对于频率学派,其认为我们所观察到的某些现象其背后的分布是确定的,是一直不变的,我们所需要的就是不断的去接近他。就好像西方人认为上帝是存在的,我们可以通过修行的方式来不断的接近上帝,看清上帝的真面目。因此对于频率学派来说,其通过大量的独立重复实验,观察某种事件出现的频率来预估其出现的概率。针对模型P(x;θ)P(x;\theta)来说,该学派认为模型的参数是存在且固定的,我们要做的就是求出让P

2016-07-19 17:47:07 2058

原创 贝叶斯分类器学习笔记

我们知道,对于人类来说学习通常是指通过经验获得知识从而导致可度量的行为变化。也就是说我们通过经验获得了知识,然后这些知识又对我们未来的行为产生了影响。而机器学习则是让机器来进行学习,因此我们也可以认为机器学习同样是让机器通过经验(在计算机中表现为数据)获得知识(知识即为我们的模型),然后基于这些知识(模型)来对我们未来的行为产生影响(即不同的模型在接收到未来的新数据可能会得到不同的label)。对于

2016-07-15 14:51:38 9127

转载 圈中最后剩下的数字(转)

源地址题目:n个数字(0,1,…,n-1)形成一个圆圈,从数字0开始,每次从这个圆圈中删除第m个数字(第一个为当前数字本身,第二个为当前数字的下一个数字)。当一个数字删除后,从被删除数字的下一个继续删除第m个数字。求出在这个圆圈中剩下的最后一个数字。分析:本题就是有名的约瑟夫环问题。既然题目有一个数字圆圈,很自然的想法是我们用一个数据结构来模拟这个圆圈。在常用的数据结构中,我们很容易想到用环形列表。

2016-07-13 11:40:42 432

原创 偏差与方差学习笔记

偏差与方差我们都知道,泛化误差可以分解为噪声,偏差和方差,即泛化误差是由噪声,偏差和方差共同决定的,但是为什么是由他们三个决定的,这里做一个比较详细的说明。 首先,我们先做几个符号的说明: yD:y_D:测试样本xx在数据集中的标记; y:y:测试样本xx的真实标记; f(x;D):f(x;D):训练集D上学得模型ff在xx上的预测输出; 那么我们可以知道模型的期望预测值为f¯(x)=ED

2016-07-12 21:21:58 2807

原创 机器学习模型性能评估方法笔记

模型性能评估综述对于模型性能的评估,我们通常分为一下三步: 1. 对数据集进行划分,分为训练集和测试集两部分; 2. 对模型在测试集上面的泛化性能进行度量; 3. 基于测试集上面的泛化性能,依据假设检验来推广到全部数据集上面的泛化性能数据集的划分对于模型来说,其在训练集上面的误差我们称之为“训练误差”或者“经验误差”,而在测试集上的误差称之为“测试误差”。因为测试集是用来测试学习期对于新样本的

2016-07-12 17:27:02 27135 5

算法导论第三版

算法领域必读经典书籍,无论是今后工作还是做科研,这本书一定会带来非常大的帮助

2015-07-06

设计模式之禅

设计模式之禅,对于想要学习设计模式的程序员有很大的帮助,非常值得一读!

2014-06-04

电脑学习宝典

对于解决电脑常出现的问题有极大的帮助,在这本书中,你可以找到许多你电脑曾经出现问题的答案,学会这本书,你就是电脑高手,大部分的问题都不会难倒你!

2014-03-04

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除