自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

转载 XGB算法梳理

算法原理XGB算法思想就是不断地添加树,不断地进行特征分裂来生长一棵树,每次添加一个树,其实是学习一个新函数,去拟合上次预测的残差。当我们训练完成得到k棵树,我们要预测一个样本的分数,其实就是根据这个样本的特征,在每棵树中会落到对应的一个叶子节点,每个叶子节点就对应一个分数,最后只需要将每棵树对应的分数加起来就是该样本的预测值。注:w_q(x)为叶子节点q的分数,f(x)为其中一棵回归...

2019-04-10 21:57:26 406

原创 线性分布、卡方分布与方差分析

线性分布通过具体因果关系的一组观察数据或者,建立线性模型的多变量分析方法。线性回归可分为一元线性回归和多元线性回归。下面将介绍一元线性回归模型。当可控变量只有一个时,回归函数可表示为 (1)则 (2)形如(1)式,可称为一元线性回归模型,称为回归系数,常数均未知。对于线性回归的求解方法,可以采用最小二乘法进行求解。设为取得的一组试验数据,假定满足如下的一元线...

2019-04-09 20:58:49 5813 1

原创 数理统计-假设检验

假设检验假设检验:根据样本的信息来判断总体是否具有指定的特征。假设检验可以分为:参数假设检验和非参数假设检验。1)参数假设检验问题,对总体X的分布函数中的未知参数a,设a的真值为a0,如何通过样本信息检验这个假设?参数假设检验一般有:单个正太总体参数的假设检验、非正太总体参数假设检验(二项分布参数假设检验、泊松分布参数假设检验)、两个正太总体均值差假设检验、两个正太总体方差比的假设...

2019-04-07 23:17:33 1919

原创 GBDT算法梳理

集成算法大致分为两类:Boosting(迭代)和Bagging(装袋)。在前面的博客中,有提到,存在强依赖关系、必须串行生成的序列化方法,代表算法是Boosting,不存在强依赖关系、可同时生成的并行化方法,代表算法有Bagging、Random Forest。其中Boosting集成算法的典型代表算法有Adaboost,GBDT(Gradient Boosting Decision Tree),...

2019-04-07 16:50:13 345

原创 中心极限定理以及置信区间总结

中心极限定理(central limit theorem)中心极限定理,是指概率论中讨论随机变量序列部分和分布渐近于正态分布的一类定理。这组定理是数理统计学和误差分析的理论基础,指出了大量随机变量近似服从正态分布的条件。设随机变量独立同分布,并且具有有限的数学期望和方差,,(i=1,2,3,......),对任意的x,分布函数有满足由公式可以知道,当n很大时i,随机变量近似...

2019-04-05 17:40:37 1966

原创 统计学习方法梳理

1.统计学基本知识总体与个体数据存在总体与个体的关系,现实生活中往往用样本数据来估计总体数据的趋势,用以估计总体数据的特征的指标有众数、中位数、均值、方差、标准差等。下面将介绍这些指标。设总体数据有N个,样本数据有n个(n<=N)众数:一组数据中出现次数最多的那个数,就是众数,众数可不唯一。中位数:将一组数据从大到小或者从小到大的排序,中位数等于位于数据中间的数。有两...

2019-04-04 11:27:05 215

原创 随机森林算法梳理

1.集成学习概念 集成学习不是一个单独的机器学习算法,它是通过构建并结合多个同质的“弱学习器”来完成学习任务,从而获得比单个学习器更好的学习效果,实现1+1>2,也就是我们常说的“博采众长”。随着对集成学习不断的深入研究,其广义定义被研究人员接受,对学习期的性质不加以限制,整合多个学习器集合来完成任务,多学习器系统、多专家混合以及基于委员会的学习等多个领域都被纳入到集成学习中,但是目...

2019-04-03 14:47:33 569

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除