应用统计学
文章平均质量分 50
韩立 •
这个作者很懒,什么都没留下…
展开
-
一元线性回归模型及其Python案例
在线性回归中,根据特征变量(也称自变量)来预测反应变量(也称因变量)。根据特征变量的个数可将线性回归模型分为一元线性回归和多元线性回归。例如,通过“人均可制配收入”这一个特征变量来预测“人均消费支出”,就属于一元线性回归;而通过“人均可制配收入”“行业”“所在城市”等多个特征变量来预测“薪水”,就属于多元线性回归。 薪水会随着工龄的增长而增长,不同行业的薪水增长速度有所不同。本案例要应用一元线性回归模型探寻工龄对薪水的影响,即搭建薪水预测模型。 模型优化一元多次线性回归模型原创 2022-09-26 11:18:07 · 4384 阅读 · 0 评论 -
相关系数显著性检验以及Python实例
解释:一般情况下,总体的相关系数是未知的,通常将样本相关系数作为总体的近似估计因此需要对样本估计出的相关系数做显著性检验(其实就是可靠性检验) 数据准备: 前十行数据如下: 1;绘制散点图,粗略查看相关关系 2:计算各变量之间的皮尔逊相关系数 3:皮尔逊相关系数的显著性检验步骤:1 计算各个相关系数检验的统计量 2 计算t分布临界值 3 比较 因为7.5>2.0686 得出结论:线性相关显著原创 2022-09-25 05:52:13 · 4778 阅读 · 0 评论 -
线性回归之相关系数分类及其Python实例
满足pearson相关系数的数据也可以用spearman计算;2.2 数值与分类的相关性:(代码结果在注释里)kendall和spearman属于秩相关;2.3 分类与分类的相关性:(基本不用)kendall的结果偏小,不建议用。2.1 数值与数值的相关性。1 数值数据与分类数据。2 数值数据与数值数据。3 分类数据与分类数据。原创 2022-09-25 03:12:04 · 665 阅读 · 0 评论 -
双因素方差分析之Python实例
不同教育程度的事后多重比较和性别的单独效应(结论在注释里)3:查看数据分布:通过绘制箱线图,检测是否有异常点。进行方差分析的条件检验:正态性和方差齐性检验。经检测:p值均大于0.05,符合显著性要求。2:转成DataFrame格式并查看。绘图查看两个因素之间是否存在交互作用。结论:存在双因素交互作用。原创 2022-09-20 03:40:59 · 1405 阅读 · 0 评论 -
双因素方差分析及其Python代码
进行无交互作用的方差分析,一般是在完成有交互作用方差分析之后,当检验结果证明交互作用不显著时,就可以不考虑这个影响,重新进行无交互作用的方差分析。或者是在观察(试验)之前,有意识地控制某一因素,主要研究另一因素对因变量的影响,这样的观察(试验)的结果也适合做无交互作用方差分析。两因素方差分析有两种类型:1、有交互作用的方差分析:两个因素对因变量都有影响,同时还有两因素同时存在时,共同对因变量产生的影响。2、无交互作用的方差分析:两个因素对因变量的影响是独立的,不存在对因变量的共同影响。原创 2022-09-19 06:52:30 · 941 阅读 · 0 评论 -
箱线图,QQ图,核密度图,直方图学习及Python代码
直方图(y轴为频率/组距)就是绘制数据的分布(加窗平滑后曲线为概率密度曲线),以块状图形式给出。绘制单变量的数据分布曲线图(概率密度图),图面积为1。可以看出数据的分布状况,可以理解为对直方图的加窗平滑处理。1:检测异常值:(导入工业蒸汽训练数据第一列)Python实例(sns库boxplot)Python代码原理解析 (注释中含解析)2:比较同类型数据的分布状况定性对比。可以看出在下边缘之下的全为异常值。2:同类数据分部对比(用的少)原创 2022-09-17 09:12:01 · 1094 阅读 · 0 评论 -
应用统计学方差分析之单因素方差分析原理解析(含Python代码)
所以,当给定显著性水平为α时,F的拒绝域为F>Fα(c-1,nT-c)。注:现实中当用到方差分析时候,一定是两组数据很相似,所以用到方差分析,若两组数据差异均值方差较大,则仅通过均值定性判断,就可以了。已知因变量是分数,因素是配方,水平为3,具有相同的样本容量8。现在假定一个因素B具有c个水平的因变量进行方差分析检验,例如上面提到的工厂轧制设备是因素,分别试验轧制了10块板材是水平。将组间方差与组内方差相比,可以得到一个F统计量(F=组间方差/组内方差),可以证明该统计量服从F分布。原创 2022-09-15 21:52:30 · 8763 阅读 · 0 评论 -
假设检验之单个总体均值检验(含Python代码)
假设检验原理图: 统计量规定 因为0.6>0.05,故接受原假设原创 2022-09-14 18:08:52 · 1319 阅读 · 2 评论 -
参数估计之区间估计(统计知识)以及Python代码
对于这个区间,给出一个概率(置信度)来说明这个区间内有多大的把握存在至少有一个值使得待定参数最接近于真实值;给出置信度的区间估计就是置信区间。我给出待定参数的一个估计范围(区间估计),猜测这个区间内至少有一个值使得待定参数最接近于真实值;在点估计的基础上,根据样本统计量的抽样分布可以对样本统计量与总体样本的真实参数的接近程度求出。我对待定参数只估计一个值(点估计),只笃定了这个值是最精确的;Python代码部分(总体均值的置信区间估计)给出总体参数估计的一个可信的区间范围。与区间估计常常一同出现的,还有。原创 2022-09-14 14:34:11 · 2367 阅读 · 0 评论 -
抽样分布以及中心极限定理理解(重点)
无原创 2022-09-11 15:43:11 · 343 阅读 · 0 评论 -
应用统计学学习第二章
实例。原创 2022-09-10 20:37:26 · 109 阅读 · 0 评论