自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(126)
  • 收藏
  • 关注

原创 逻辑回归-正则化项缓解特征共线性

由于过拟合本质是过多的特征被启用导致的,导致模型泛化性变差,所以防止过拟合要降低特征的数量,可以通过使 w 个数减少,问题就变成让 W 向量中项的个数最小化,方法就是让 w 变成或趋近于 0,因为向量中 0 元素对应的 x 是没有任何权重的。这里需要注意,参数 C 是正则化项强度的倒数。问题:为什么正则化可以防止过拟合?显然二者都会对共线性有一定的效果。

2023-03-22 19:39:39 309 1

原创 XGBoost-XGBoost 中验证相关参数梳理和解释

evals (Optional[Sequence[Tuple[DMatrix, str]]]) - 在训练时用于指标进行评估的验证集列表。用于验证数据的评估指标,根据不同的目标函数,会分配默认评估指标(回归使用 rmse,分类使用 logloss,排序使用 mean average precision)对于 python 使用者:记得使用参数对列表而不是 map 来传递评估指标,这样之后 eval_metric 不会覆盖之前的参数。这里可以看到,xgb 使用的是 rmse,这是由 params 中的参数。

2023-03-03 12:20:54 796

原创 XGBoost-XGBoost objective 参数部分选项解释

Multi:softprob:和 softmax 相同,但是输出一个样本数量 * 类别数量的向量,该向量会被 reshape 为样本数量 * 类别数量的矩阵。Multi:softmax:让 XGBoost 使用 softmax 作为目标函数执行多分类,你需要这顶 num_classes(类别的数量)Binary:logitraw:二分类逻辑回归,输出使用逻辑回归转化前(sigmoid 函数)的分数。首先 objective 是目标函数的意思,也就是建模的时候,需要最小化的函数。,此时对于新的样本直接使用。

2023-02-28 11:32:32 716

原创 GBDT-为什么 GBDT 优于随机森林和决策树

也就是样本和样本的偏差,本身不同树之间的相关系数就比较小,再加上限制树的最大深度很小来进一步降低,通过对树进行剪枝是 GBDT 或者说 boosting 所特有的,无论是决策树还是随机森林,如果进行大刀阔斧的剪枝,一定会导致准确率快速下降,因此在树的结构方面,为了保证偏差,二者不能和 boosting 采取一样的策略。首先要理解的是决策树、随机森林和 GBDT 的偏差都不大。. 所以对于每个基分类器来说,目标就是如何降低这个偏差(bias), 所以我们会采用深度很深甚至不剪枝的决策树。

2023-02-23 09:27:02 332

原创 GBDT-f_t(x_i)取值问题的个人理解

这样损失函数就能直接为 0,但此时模型的泛化能力会很弱,整体模型偏差小,方差很大,也就是决策树模型,所以我们要在保证减小损失函数的前提下保证模型的泛化能力,因此就会有。并不会直接使得损失函数为 0,泰勒展开是约等于,只是使得在当前梯度情况下的损失函数最小值,也就是满足。这里需要注意的是,等式左面是平方损失,本身就是平方项,因此必须要大于等于 0,因此其最小值就为 0。,梯度的值也会重新变化,也就是损失函数下降最快的方向就会随之变化,因此我们需要不断更新梯度。,但经过更新后,也就是。从迭代的角度说,其实。

2023-02-22 10:12:24 295

原创 HyperOpt-quniform 范围问题

在使用 quniform 的时候,可能会出现超出指定范围的值,例如对于 GBDT 设置参数空间为。实际上,Hyperopt 对于 quniform 的处理并不是类似于。适用于相对取值仍然有点“平滑”,但应有上下限限制的离散值。因此对于上面的报错我们就可以找到原因了。在优化的时候,这个变量被限制在最大值和最小值中间。进一步,我们需要看一下 uniform 的定义。,而是另一种处理方式,这里可以查看官方文档。返回值介于在 low 和 hight 之间。,但我们并没有把 0 设置在范围内。

2023-02-20 11:10:35 482

原创 Anaconda 一直卡在 Initializing

首先看一下是不是和我是同一个问题,强制关闭正在打开的 anaconda,然后断网,尝试打开 anaconda,看是否能打开,如果能,那应该和我的情况一样。我使用 anaconda 并没有联网的需求,因此为了以后使用方便,定义一个出站规则,禁止 anaconda 联网。选择 Windows Defender 防火墙。

2023-02-09 15:07:13 1956 4

原创 随机森林-当算法是回归算法,模型的泛化误差公式推导

是模型在不同数据集上输出的结果的方差,衡量模型稳定性。是数据收集过程当中不可避免的、与数据真实分布无关的信息。因此我们可以得到,学得的算法预测结果的期望为。根据描述,我们来看一下偏差、方差、噪音的公式。是预测值与真实值之间的差异,衡量模型的精度。首先我们假定噪声的期望为 0,也就是。

2023-02-04 10:41:32 1026

原创 决策树-使得曼哈顿距离下的组内误差平方和最小的质心是这一组数的中位数

设使得曼哈顿距离下的组内误差平方和最小的质心的坐标为。对于一个一维点集 A,设其中有 C 个点,记作。

2023-01-30 15:22:10 216

原创 逻辑回归-为什么逻辑回归predict_proba返回结果按行求和为1

对于一个多分类问题,如果multi_clas桉树被设置为“multinomial” ,则softmax函数会被用于预测每个类别的预测概率。否则,使用ovr方法,即使用sigmoid函数,依次假设每个类为唯一正类,计算每个类别的概率,然后对所有类预测的概率进行归一化。这里没有分成三个小的逻辑回归然后对输出的概率进行求和,一个是我确实没弄出来,其次帮助文档没有提及需要像ovr一样对每个类别设为正类,以及源码中也是直接调用了decision_function直接使用的。再说一下’multinomial’的情况。

2023-01-15 10:00:12 544

原创 逻辑回归-为什么模型会更加侧重于学习那些数值比较大的列

取值在非长轴的任意位置,其梯度向量都是近乎或者完全垂直于长轴的,再加上学习率较大,每次迭代后基本到达对侧的相同位置,下次的梯度向量仍然是近乎或者完全垂直于长轴,几乎没有在。的坐标变化图,由此图我们可以大概估计,如果能画出等高线图,等高线应该是一个椭圆形,长轴和。移动一点,却对评估指标作用不大,因此模型会更加侧重于学习那些数值比较大的列。,显然距离解析解还有很远的距离,但此时模型主要还是在调整特征取值大的。只动一小点,评估指标就可以有很大的变化,这要是,但是。平行,且长轴远远长于短轴,这就导致初始的。

2022-12-02 10:49:00 267

原创 逻辑回归-关于WOE和IV的一些理解

本文主要解决为什么WOE能用于逻辑回归建模写到最后才发现出问题了这里认为少数类为good,就是正类。

2022-11-28 21:32:20 950

原创 支持向量机-关于predict_proba、decision_function

前一篇文章中,对有疑问,为什么比阈值大的标签就是1,反之就是0,本篇文章就是来探讨这个问题,并对decision_function会有更详细的解释首先我们先看二分类的数据,为了便于展示,我们使用二维数据这里为decision_function更好理解,所以我们要画出分离超平面和决策边界。

2022-11-15 08:23:11 1226

原创 【白板推导系列笔记】核方法-正定核-两个定义&必要性证明

实际上这个是充要的,在统计学习方法中有证明,也就说明了两个定义是等价的,这里只证明必要性。是指Hilbert空间:完备的。可能是无限维的、被赋予内积的线性空间。被赋予内积的,要求该空间具有对称性、正定性、线性,对应满足公式。又根据内积具有对称性质(Hilbert空间定义的),即。完备的,可以理解为对极限是封闭的,即对于。是Gram矩阵的代号,第二个。再证Gram矩阵半正定,即证。Gram矩阵半正定,且。

2022-10-08 10:11:46 434

原创 【白板推导系列笔记】核方法-背景介绍

显然异或问题中的数据不是线性可分的,但我们可以将数据映射到高位空间来实现线性可分,因此我们需要寻找一个非线性的。核方法可以用于非线性带来的高维转换(从模型角度),对偶表示带来内积(从优化角度)如果我们把这里的原数据映射到高维空间实现线性可分,则问题转化为。有时分类数据是完全不可分的,例如异或问题,即数据集为。这里关于核函数的定义先看看就行,后面会有更精确的定义。显然在新的空间中,新数据可以实现线性可分。,这个计算量是很大的,因此我们引出核函数。映射到成高维空间的数据。,从而实现新的数据集。

2022-10-07 08:09:48 234

原创 【白板推导系列笔记】支持向量机-软间隔SVM-模型定义

我们的训练数据通常不是理想的线性可分,有时甚至是线性不可分的数据。再考虑loss为支持向量另一侧的向量以及误分类的向量到过支持向量平行于超平面的距离的和,即。最简单的想法,我们可以让loss为支持向量另一侧的向量以及误分类的向量,即。显然这个函数是不连续的,因此是不可导的,不利于优化求解,因此不使用这种方法。可以理解为向量到过支持向量平行于超平面的距离),因此上式转化为。转化成这个式子每一步都能看懂,但总觉得自己哪里没理解。求解在《统计机器学习》里面有,可以去看看。也被称为合页损失函数,如下图。

2022-10-07 08:07:54 232

原创 【白板推导系列笔记】支持向量机-约束优化问题-弱对偶性证明

后面还有对偶关系之几何解释、对偶关系之slater condition、对偶关系之KKT条件,以后会补上的。简单来说,引入拉格朗日乘子是为了强制要求所有的约束条件必须被满足,的值域,值域里面的任何一个数,必然是大于等于它对。这个函数,我们知道下面这个不等式一定成立。引入拉格朗日乘子后,得到拉格朗日函数。所谓弱对偶性,指的是对偶问题。的最小值,小于等于它对。

2022-10-06 18:41:30 364

原创 【白板推导系列笔记】支持向量机-硬间隔SVM-模型求解-引出对偶问题&引出KKT条件

{min ω,b12ωTωs.t.yi(ωTxi+b)≥1⇔1−yi(ωTxi+b)≤0,i=1,2,⋯ ,N⏟N个约束\left\{\begin{aligned}&\mathop{\text{min }}\limits_{\omega,b} \frac{1}{2}\omega^{T}\omega\\&s.t.y_{i}(\omega^{T}x_{i}+b)\geq 1\Leftrightarrow 1-y_{i}(\omega^{T}x_{i}+b)\leq 0,\underbrace{i=1,2,\c

2022-10-06 18:39:57 370

原创 【白板推导系列笔记】支持向量机-硬间隔SVM-模型定义

假如数据是完全的线性可分的,那么学习到的模型可以称为硬间隔支持向量机。换个说法,硬间隔指的就是完全分类准确,不能存在分类错误的情况。在感知机算法中,如果两类线性可分,一般情况下,会存在无穷多条线。在SVM中,一个超平面,不仅能将数据正确分类,而且这个超平面到不同类之间距离最大。这里的margin是指数据集中离超平面最近的点到超平面的距离,因此,上式等价于。因此我们就可以在数据集线性可分的任何情况下,令。因此,最大化数据到超平面的间隔就可以被表达为。,因此最大化数据到超平面的间隔就可以被表达为。

2022-10-05 09:28:44 320

原创 【白板推导系列笔记】降维-主成分分析-概率角度(Probabilistic PCA)

PPCA假设所有的样本点取自某个分布X∈RpX \in \mathbb{R}^{p}X∈Rp,对应的每个点xix_{i}xi​,都有一个ziz_{i}zi​与之对应,取样与某个分布Z∈Rq(q

2022-10-05 09:27:00 645

原创 【白板推导系列笔记】降维-SVD角度看PCA和PCoA

前一节说明了重构特征空间找什么方向的向量,本节讲的是如何重构特征空间,即通过特征分解(SVD),因此对于小样本量的数据集我们常采用PCoA的方法。的特征值分解也被称为主坐标分析PCoA。这里需要说明的是,由于PCA的对象是。进行SVD可以直接得到新的坐标。,即方向、主成分,然后通过。对于中心化的数据矩阵。那么我们对协方差矩阵。进行SDV就可以得到。,而PCoA的对象是。

2022-10-04 07:58:41 471

原创 【白板推导系列笔记】降维-PCA-最大投影方差&最小重构代价

PCA的核心就是对原始特征空间的重构(将一组可能线性相关的变量,通过正交变换变换成一组线性无关的变量)两个基本的要求是最大投影方差(即找到的投影方向对于数据集投影方差最大),最小重构代价(即降维所得到的新数据与原数据相比,信息损失最小)X=(x1x2⋯xN)N×pT=(x1Tx2T⋮xNT)=(x11x12⋯x1px21x22⋯x2p⋮⋮⋮xN1xN2⋯xNP)N×pxi∈Rp,i=1,2,⋯ ,N记1N=(11⋮1)N×1xˉ=1NXT1N,S=1NXTHX\begin{gathered}X=\be

2022-10-04 07:56:33 690

原创 【白板推导系列笔记】降维-背景

也就是在球壳内部是几乎没有体积的,这也能说明在高维空间中的数据点大多分布在立方体的边缘,数据集更加稀疏。解决过拟合问题有三种思路:加数据、正则化、降维,降维的思路来自于维度灾难。也就是,在高维空间中的数据点大多分布在立方体的边缘,数据集更加稀疏。的超球体间球壳的体积之差,发现二者体积都为。,对应超正方体,我们可以认为它的体积为。的超球体的体积,以及该超球体与半径为。,对应最大内接圆的面积为。,对应最大内接球的体积为。已知一个正方形边长为。

2022-10-03 08:10:08 360

原创 【白板推导系列笔记】降维-样本均值&样本方差矩阵

X=(x1x2⋯xN)N×pT=(x1Tx2T⋮xNT)=(x11x12⋯x1px21x22⋯x2p⋮⋮⋮xN1xN2⋯xNP)N×pxi∈Rp,i=1,2,⋯ ,N记1N=(11⋮1)N×1\begin{gathered}X=\begin{pmatrix}x_{1} & x_{2} & \cdots & x_{N}\end{pmatrix}^{T}_{N \times p}=\begin{pmatrix}x_{1}^{T} \\ x_{2}^{T} \\ \vdots \\ x_{N}^{T

2022-10-03 08:08:11 432

原创 【白板推导系列笔记】线性分类-朴素贝叶斯分类器(Naive Bayes Classifer)

在这个分类器中我们可以用单词向量作为输入特征,具体的,我们的单词书中如果一共有50000个词,那么一封邮件的x向量可以是。,对如此多的参数进行估计是不现实的,所以我们做一个强假设来简化概率模型。朴素贝叶斯是对数据属性之间的关系进行了假设,即各个属性维度之间独立。常常服从于类别分布,实际上思路相同,只是估计参数变多,这里不进行推导。维的向量,在这封邮件中如果存在字典中的词,那该词所在的位置设置为。朴素贝叶斯假设每一个维度都是独立的,则有。这里的指示函数在GDA中有类似的代替,即。

2022-10-02 09:31:55 492

原创 【白板推导系列笔记】线性分类-高斯判别分析(Gaussian Discriminant Analysis)-模型求解(求期望)&模型求解(求协方差)

L(μ1,μ2,Σ,ϕ)=∑i=1N[log⁡N(μ1,Σ)yi⏟(1)+log⁡N(μ2,Σ)1−yi⏟(2)+log⁡ϕyi(1−ϕ)1−yi⏟(3)]L(\mu_{1},\mu_{2},\Sigma,\phi)=\sum\limits_{i=1}^{N}[\underbrace{\log N(\mu_{1},\Sigma)^{y_{i}}}_{(1)}+\underbrace{\log N(\mu_{2},\Sigma)^{1-y_{i}}}_{(2)}+\underbrace{\log \phi^

2022-10-02 09:30:34 260

原创 【白板推导系列笔记】线性分类-高斯判别分析(Gaussian Discriminant Analysis)-模型定义

建模,而高斯判别分析作为概率生成模型,是通过引入类型的先验,通过贝叶斯公式,得到联合分布。高斯判别分析我们对数据集作出的假设有,类的先验是二项分布,每一类的似然是高斯分布,即。的大小关系,因此不需要关注分母,因为二者是一样的,即。,再对联合分布的对数似然得到参数。

2022-10-01 15:56:55 457

原创 【白板推导系列笔记】线性分类-逻辑回归(Logistic Regression)

{(xi,yi)}i=1N,xi∈Rp,yi∈{0,1}\begin{gathered}\left\{(x_{i},y_{i})\right\}_{i=1}^{N},x_{i}\in \mathbb{R}^{p},y_{i}\in \left\{0,1\right\}\end{gathered}{(xi​,yi​)}i=1N​,xi​∈Rp,yi​∈{0,1}​逻辑回归作为线性分类中的软输出,相对于硬输出,输出结果为yyy为各值的概率,总体思路与硬输出是相同的,即线性回归→线性分类ωTx→激活函

2022-10-01 10:05:01 417

原创 【白板推导系列笔记】线性分类-线性判别分析(Fisher)-模型定义

线性判别分析的思想是,找的一个方向ω\omegaω,将样本向这个方向做投影,投影后的数据尽可能的满足总结为类内小,类间大X=(x1x2⋯xN)T=(x1Tx2T⋮xNT)N×p,Y=(y1y2⋮yN)N×1{(xi,yi)}i=1N,xi∈Rp,yi∈{+1,−1}xC1={xi∣yi=+1},xC2={xi∣yi=−1}∣xC1∣=N1,∣xC2∣=N2,N1+N2=N\begin{gathered}X=\begin{pmatrix}x_{1} & x_{2} & \cdots & x_{N}\

2022-09-30 17:19:30 360

原创 【白板推导系列笔记】线性分类-背景&感知机

就可以把线性回归的结果映射到两个分类结果上了。如果定义随时函数为错误分类的数目,即。显然该函数是不可导的,因此定义。为错误分类的集合,每次更新。采用梯度下降的算法,上式对。

2022-09-30 15:29:51 368

原创 【白板推导系列笔记】线性回归-正则化-岭回归-频率角度

如果在我们知道⽔果的种类之前,有⼈问我们哪个盒⼦被选中,那么我们能够得到的最多的信息就是概率p(B)。同时也发现,在噪声为高斯分布的时候,MLE 的解等价于最小二乘误差,而增加了正则项后,最小二乘误差加上 L2 正则项等价于高斯噪声先验下的 MAP解,加上 L1 正则项后,等价于 Laplace 噪声先验。这个结果与我们的直觉相符,因为红盒⼦中橘⼦的⽐例⽐蓝盒⼦⾼得多,因此观察到⽔果是橘⼦这件事提供给我们更强的证据来选择红盒⼦。然⽽,⼀旦我们观察到选择的⽔果是橘⼦,我们发现红盒⼦的后验概率现在是。

2022-09-29 10:17:01 334

原创 【白板推导系列笔记】线性回归-最小二乘法及其几何意义&最小二乘法-概率视角-高斯噪声-MLE

D={(x1,y1),(x2,y2),⋯ ,(xN,yN)}xi∈Rp,yi∈R,i=1,2,⋯ ,NX=(x1x2⋯xN)T=(x1Tx2T⋮xNT)=(x11x12⋯x1px21x22⋯x2p⋮⋮⋮xN1xN2⋯xNp)N×pY=(y1y2⋮yN)N×1\begin{gathered}D=\left\{(x_{1},y_{1}),(x_{2},y_{2}),\cdots ,(x_{N},y_{N})\right\}\\x_{i}\in \mathbb{R}^{p},y_{i}\in \mathbb

2022-09-28 22:02:36 410

原创 【白板推导系列笔记】数学基础-概率-高斯分布-求联合概率分布

X∼N(μ,Σ)=1(2π)p2∣Σ∣12exp(−12(x−μ)TΣ−1(x−μ))x∈Rp,r.v.\begin{gathered}X \sim N(\mu,\Sigma)=\frac{1}{(2\pi)^{\frac{p}{2}}|\Sigma|^{\frac{1}{2}}}\text{exp}\left(- \frac{1}{2}(x-\mu)^{T}\Sigma^{-1}(x-\mu)\right)\\x \in \mathbb{R}^{p},r.v.\\\end{gathered}X∼

2022-09-28 07:49:36 312

原创 【白板推导系列笔记】数学基础-概率-高斯分布-求边缘概率以及条件概率

X∼N(μ,Σ)=1(2π)p2∣Σ∣12exp(−12(x−μ)TΣ−1(x−μ))x∈Rp,r.v.\begin{gathered}X \sim N(\mu,\Sigma)=\frac{1}{(2\pi)^{\frac{p}{2}}|\Sigma|^{\frac{1}{2}}}\text{exp}\left(- \frac{1}{2}(x-\mu)^{T}\Sigma^{-1}(x-\mu)\right)\\x \in \mathbb{R}^{p},r.v.\\\end{gathered}X∼

2022-09-26 22:14:46 360

原创 【白板推导系列笔记】数学基础-概率-高斯分布-从概率密度角度观察&局限性

如果协方差矩阵为单位矩阵,那么马氏距离就简化为欧氏距离,如果协方差矩阵为对角阵,则其也可称为正规化的欧氏距离。对于一个均值为μ,协方差矩阵为Σ的多变量向量,其马氏距离为。下面我们看多维高斯模型在实际应用时的两个问题。的方向上的投影,因此椭圆一般是有旋转的(这。是正定的,显然可以进行特征值分解,有。都是常数,那么其图像就是一个椭圆。是半正定的,这里假设是正定的。如果取定一个概率值,又因为。显然这符合椭圆方程,又有。,也就是说椭圆中心移动了。,则该椭圆没有旋转;轴的交点即原点处,因为。,因此是正交的),如果。

2022-09-25 21:25:12 411

原创 【白板推导系列笔记】数学基础-概率-高斯分布-极大似然估计&极大似然估计-有偏VS无偏

Data:X=(x1,x2,⋯ ,xN)T=(x1Tx2T⋮xNT)N×p,xi∈Rp,xi∼iidN(μ,Σ)MLE:θMLE=argmaxθP(X∣θ),θ=(μ,Σ)\begin{gathered}\text{Data}:X=(x_{1},x_{2},\cdots,x_{N})^{T}=\begin{pmatrix}x_{1}^{T} \\ x_{2}^{T} \\ \vdots \\ x_{N}^{T}\end{pmatrix}_{N \times p},x_{i} \in \mathbb

2022-09-24 21:23:28 363

原创 【概率论基础进阶】参数估计-估计量求法和区间估计

用样本矩估计相应的总体矩,用样本矩的函数估计总体矩相应的函数,然后求出要估计的参数,称这种估计法为矩估计法设XXX为连续型随机变量,其概率密度为f(x;θ1,θ2,⋯ ,θk)f(x;\theta_{1},\theta_{2},\cdots,\theta_{k})f(x;θ1​,θ2​,⋯,θk​),或XXX为离散型随机变量,其分布律为P{X=x}=p(x;θ1,θ2,⋯ ,θk)P \left\{X=x\right\}=p(x;\theta_{1},\theta_{2},\cdots,\theta_{k}

2022-09-23 08:48:09 347

原创 【概率论基础进阶】参数估计-点估计

定义:用样本X1,X2,⋯ ,XnX_{1},X_{2},\cdots,X_{n}X1​,X2​,⋯,Xn​构造的统计量θ^(X1,X2,⋯ ,Xn)\hat{\theta }(X_{1},X_{2},\cdots,X_{n})θ^(X1​,X2​,⋯,Xn​)来估计参数θ\thetaθ称为点估计,统计量θ^(X1,X2,⋯ ,Xn)\hat{\theta }(X_{1},X_{2},\cdots,X_{n})θ^(X1​,X2​,⋯,Xn​)称为估计量估计量是随机变量,它所取得的观测值θ^(x1,x2,⋯

2022-09-22 08:35:31 239

原创 【概率论基础进阶】数理统计的基本概念-常用统计分布

定义:设随机变量X1,X2,⋯ ,XnX_{1},X_{2},\cdots,X_{n}X1​,X2​,⋯,Xn​相互独立且均服从标准正态分布N(0,1)N(0,1)N(0,1),则称随机变量χ2=X12+X22+⋯+Xn2\chi^{2}=X_{1}^{2}+X_{2}^{2}+\cdots +X_{n}^{2}χ2=X12​+X22​+⋯+Xn2​服从自由度为nnn的χ2\chi^{2}χ2分布,记作χ2∼χ2(n)\chi^{2}\sim \chi^{2}(n)χ2∼χ2(n)设χ2∼χ2(n)

2022-09-21 15:48:36 578

原创 【概率论基础进阶】数理统计的基本概念-总体、样本、统计量和样本数字特征

定义:如果随机变量X1,X2,⋯ ,XnX_{1},X_{2},\cdots ,X_{n}X1​,X2​,⋯,Xn​相互独立且都与总体XXX同分布,则称X1,X2,⋯ ,XnX_{1},X_{2},\cdots,X_{n}X1​,X2​,⋯,Xn​为来自总体的简单随机样本,简称样本。nnn为样本容量,样本的具体观测值x1,x2,⋯ ,xnx_{1},x_{2},\cdots,x_{n}x1​,x2​,⋯,xn​称为样本值,或称总体XXX的nnn个独立观测值如果总体XXX的分布为F(x)F(x)F(x),则

2022-09-20 21:39:02 353

【菜菜的sklearn课堂】决策树-泰坦尼克号幸存者预测数据集

【菜菜的sklearn课堂】决策树-泰坦尼克号幸存者预测数据集

2022-10-18

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除