自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

转载 卡方检验思想及其应用

卡方检验思想及其应用卡方检验是以χ2分布为基础的一种常用假设检验方法,它的无效假设H0是:观察频数与期望频数没有差别。该检验的基本思想是:首先假设H0成立,基于此前提计算出χ2值,它表示观察值与理论值之间的偏离程度。根据χ2分布及自由度可以确定在H0假设成立的情况下获得当前统计量及更极端情况的概率P。如果当前统计量大于P值,说明观察值与理论值偏离程度太大,应当拒绝无效假设,表示

2017-10-14 15:49:16 657

原创 决策树、随机森林(RF)与GBDT

看过几篇关于三者不错的博文,分享给大家决策树:1. 《决策树与随机森林》2. 《算法杂货铺——分类算法之决策树》随机森林(RF):1. 《随机森林(Random Forest)》GBDT:1. 《GBDT:梯度提升决策树》

2017-10-06 12:42:39 871

原创 方差与偏差

其实就机器学习算法来说,其泛化误差可以分解为两部分,偏差(bias)和方差(variance)。偏差指的是算法的期望预测与真实预测之间的偏差程度,反应了模型本身的拟合能力;方差度量了同等大小的训练集的变动导致学习性能的变化,刻画了数据扰动所导致的影响。通俗的讲,偏差是模型估计值和真实值之间差异,为精度;方差是模型总体的稳定性,方差小,模型的稳定性好,泛化性能高。如下图所

2017-10-06 11:29:59 660

原创 统计数据类型与对应的相关性分析方法

在统计学中,统计数据主要可分为四种类型,分别是定类数据,定序数据,定距数据,定比变量。1.定类数据(Nominal):名义级数据,数据的最低级,表示个体在属性上的特征或类别上的不同变量,仅仅是一种标志,没有序次关系。例如, ”性别“,”男“编码为1,”女“编码为2。定类变量之间的相关系数,只能以变量值的次数来计算,常用λ系数法;2.定序数据(Ordinal):数据的中间级,用数字表示个体在

2017-09-30 14:11:25 12866

原创 关于卡方在离散型单特征变量分析中的应用

卡方检验,检验的是真实值和基于原假设得到的预测值之间样本的差异,即如果真实值和预测值之间的样本差异较小,则表示原假设成立。在我们构建模型,进行单特征分析的时候(分析单特征与真实label之间的相关性),往往会利用到卡方值。离散变量之间的相关性检验的假设是变量之间是独立的,然后基于这个构建了卡方分布,如果他们之间确实是独立的的话,即假设成立,真实值和预测值之间的差异很小,对应的卡方值也就低,得到

2017-09-30 11:28:53 1977

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除