我的数据挖掘之旅-统计学基础

序言:
很早就开始关注居士老师的公众号了,但是自己也懒,很多文章都没有看完,最近居士老师组织人一起系统学习数据挖掘,希望这次可以和大家共同进步。

甜点:
统计学是数据分析的基石。学了统计学,你会发现很多时候的分析并不靠谱。比如很多人都喜欢用平均数去分析一个事物的结果,但是这往往是粗糙的,不准确的。如果学了统计学,那么我们就能以更多更科学的角度看待数据。所以我们这周的计划就是统计学相关知识。
在这里插入图片描述
大部分的数据分析,都会用到统计方面的以下知识,可以重点学习:
一:数据的集中趋势:
1、数值型数据:中位数、众数、平均数、极差、分位数、方差、标准差、极差、平均值、算术平均数、加权平均值、几何平均值
2、顺序数据:四分位数
3、分类数据:异众比率
4、相对离散程度:离散系数
5、分布的形状:偏态系数、峰态系数
三:概率分布:
几何分布、二项分布、泊松分布、正态分布等
四:总体和样本:
了解基本概念,抽样的概念
五:置信区间与假设检验:
如何进行验证分析
六:相关性与回归分析:
一般数据分析的基本模型

通过基本的统计量,就可以更多元化实现可视化,进而实现更加精细化的数据分析。这个时候也需要你去了解更多的Excel函数来实现基本的计算,或者python、R里面一些对应的可视化方法。有了总体和样本的概念,你就知道在面对大规模数据的时候,怎样去进行抽样分析。你也可以应用假设检验的方法,对一些感性的假设做出更加精确地检验。利用回归分析的方法,你可以对未来的一些数据、缺失的数据做基本的预测。

正菜:
本文算是一个知识点汇总,不做细致展开,让大家了解统计学有哪几大块,每一类分别用于什么样的分析场景。

一、数据的集中趋势
1.众数
出现频率最高的数;
2.中位数
把样本值排序,分布在最中间的值;
样本总数为奇数时,中位数为第(n+1)/2个值;
样本总数为偶数时,中位数是第n/2个,第(n/2)+1个值的平均数;
3.平均数
所有数的总和除以样本数量;
现在大家接触最多的概念应该是平均数,但有时候,平均数会因为某些极值的出现收到很大影响。举个小例子,你们班有20人,大家收入差不多,19人都是5000左右,但是有1个同学创业成功了,年入1个亿,这时候统计你们班同学收入的“平均数”就是500万了,这也很好的解释了,每年各地的平均收入数据出炉,小伙伴们直呼给祖国拖后腿了,那是因为大家收入被平均了,此时,“中位数”更能合理的反映真实的情况;
4、平均差是用在看总体水平的,
方差是用来看数据是否参差不齐

关于算术平均数和几何平均数的概念,我们先看以下这个例子:如果你是一个基金经理,管理着一支基金,规模是100万元,今年行情好,到年底的时候涨到了200万元;然而第二年行情很差,又跌回了100万元,请问这支基金在这两年内的平均收益率是多少?收益率的计算公式:收益率=(期末价格-期初价格)/期初价格我们分开计算:第一年的收益率=(200-100)/100=100%;第一年的收益率是100%,盈利;第二年的收益率=(100-200)/200=-50%;第二年的收益率是-50%,亏损;那么平均收益率该怎么算呢,一般人可能会把这两个收益率加起来除以二:[100%+(-50%)]/2=25%;也就是说平均收益率有25%,基友一看,那好,你基金经理把25%的收益率给我,我投了100万,你把25万给我。你一看,期初管理了100万的基金规模,两年后还是100万的基金规模,并没有多出的25万给基友啊,那这平均收益率难道错了吗?其实不是平均收益率错了,而是你选用计算平均收益率的方式错了。计算平均数,有两种方式,一种是算术平均数,还有一种是几何平均数。算术平均数就是我们上面求均值的方式,也是统计学中最基本、最常用的一种平均指标,是加权计算的,每个数据之间不具有相互影响关系,是独立存在的。比如你是手机店的销售员,星期一你卖了10部手机,星期二你卖了8部手机,星期三你卖了9部手机,星期四你买了11部手机,星期五你卖了12部手机,那么这一周你平均每天卖的手机数是:(10+8+9+11+12)/5=10;你平均每天卖10部手机。那么,什么是几何平均数呢?几何平均数是指n个观察值连续乘积的n次方根,这么说好像不太好理解,我们接着举卖手机的例子:比如你是手机店的销售员,上个星期平均每天卖了10部手机,这个星期你的经理给你布置了新的任务指标:星期一在上个星期的基础上要增加10%的量,星期二在星期一的基础上再增加12%的量,星期三在星期二的基础上再增加8%的量,星期四在星期三的基础上再增加11%的量,星期五在星期四的基础上再增加9%的量。那么,我们分开来计算每天要卖几台手机:星期一:=10X(1+10%)=11;星期二:=11X(1+12%)=12.32;星期三:=12.32X(1+8%)=13.31;星期四:=13.31X(1+11%)=14.77;星期五:=14.77X(1+9%)=16.1;或者我们可以一步计算:星期五:=10X1.1X1.12X1.08X1.11X1.09=16.1;星期一到星期五的增长率就是:(16.1-10)/10=61%;既然是求平均率,那么每个时间段的增长率都是相等的,即:(1+r)(1+r)(1+r)(1+r)(1+r)=(1+61%);r=10%;手机销售的日平均增长率是10%;介绍完了算术平均数和几何平均数的概念,我们再来看这篇答案开篇的那个例子:如果你是一个基金经理,管理着一支基金,规模是100万元,今年行情好,到年底的时候涨到了200万元;然而第二年行情很差,又跌回了100万元,请问这支基金在这两年内的平均收益率是多少?我们还是分别算出第一年和第二年的期间收益率:第一年的收益率=(200-100)/100=100%;第一年的收益率是100%,盈利;第二年的收益率=(100-200)/200=-50%;第二年的收益率是-50%,亏损;这里我们不能用算术平均数的方法计算,而应该用几何平均数的方法计算:(1+r)(1+r)=(1+100%)(1-50%);r=0;几何平均数算出来的平均收益率是0%。也就是这两年没涨没跌,符合实际情况,100万元的基金规模在两年后还是100万元。有些基金公司对外宣称的平均收益率,都是算术平均收益率,这是不符合行业规范的,因为在算术平均收益率的计算下,如果第一年行情火爆,基金收益翻了好几倍,即使后面几年连续亏损,计算出来的也依然是正的收益率,按照规定,应该算几何平均收益率。
5.方差
在统计描述中,方差用来计算每一个变量(观察值)与总体均数之间的差异。为避免出现离均差总和为零,离均差平方和受样本含量的影响,统计学采用平均离均差平方和来描述变量的变异程度。总体方差计算公式:
在这里插入图片描述
在这里插入图片描述
6、分位数
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
二、正态分布
1.定义:随机变量X服从一个数学期望为μ,方差为σ⊃2;的正态分布,记为N(μ,σ⊃2;)
随机取一个样本,有68.3%的概率位于距离均值μ有1个标准差σ内;
有95.4%的概率位于距离均值μ有2个标准差σ内;
有99.7%的概率位于距离均值μ有3个标准差σ内;
在这里插入图片描述
三、抽样分布
1.中心极限定理
设从均值为μ,方差为σ⊃2;的任意一个总体中抽取样本量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ、方差为σ⊃2;/n的正态分布
2.抽样分布
设总体共有N个元素,从中随机抽取一个容量为n的样本,在重置抽样时,共有N·n种抽法,即可以组成N·n不同的样本,在不重复抽样时,共有N·n个可能的样本。每一个样本都可以计算出一个均值,这些所有可能的抽样均值形成的分布就是样本均值的分布。但现实中不可能将所有的样本都抽取出来,因此,样本均值的概率分布实际上是一种理论分布。数理统计学的相关定理已经证明:在重置抽样时,样本均值的方差为总体方差的1/n。
举个例子:
48盆MM豆,计算出每盆有几个蓝色的MM豆,48个数据构成了总体样本。然后随机选择五盆,计算五盆中含有蓝色MM豆的平均数,然后反复进行了50次。这就是n为5的样本均值抽样。
在这里插入图片描述
三、假设检验
在这里插入图片描述
1.问题:什么是显著性水平?
显著性水平是估计总体参数落在某一区间内,可能犯错误的概率,也就是Type I Error
A Type II Error is when you fail to reject the null when it is actually false.
在这里插入图片描述
在这里插入图片描述
2. 如何选择备选检验和零假设?
一个研究者想证明自己的研究结论是正确的,备择假设的方向就要与想要证明其正确性的方向一致;
同时将研究者想收集证据证明其不正确的假设作为原假设H0

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值