数据分析入门(第一课)

为了我在读硕士的媳妇入门数据分析,我决定开一门从零开始数据分析的博文。即具有实用性又没那么复杂的数学公式,拿来主义的博文。要学会数据分析,特别是需要掌握数据的特征,我们首先需要了解一些基本的概念。

第一:数据分析要解决什么问题?

根据数据的特征,来预测数据的走向?分析数据的趋势或者离散程度?或者仅仅是对比几组数据在某个指标上的好坏?或者是对用户进行画像?

在我媳妇儿的生物化学领域,一般来说就是对比两个方法在测出来的数据的好坏,或者哪个方法测出来的数据更好。

要学会分析数据,首先要明白有哪些指标可以来度量数据的好坏。

概念:

均值:算数平均数

均值数据对数值型数据计算的,而且利用了全部数据信息,提取的信息最充分,当数据呈对称分布或近似对称分布时,三个代表值相等或相近,此时应选择平均数。但受极端数据的影响,对于偏态分布的数据,平均数的代表性较差,此时应考虑中位数或众数。

中位数:将数据按大小排列后位于正中间的数描述,描述中等水平

      中位数是一组数据中间位置上的代表值,直观,不受极端数据的影响,但数据信息利用不够充分,当数据的分布偏斜较大时,使 用中位数也许不错。主要适合作为顺序数据的集中趋势测度值。

众数:数据中出现最多的数

众数一组数据分布的峰值,容易计算,但不是总是存在,众数只有在数据量较多时才有意义,数据量较少时不宜使用。主要适合作为分类数据的集中趋势测度值,应用场合较少;

众数、中位数和均值是分布集中趋势的三个主要测度,众数和中位数是从数据分布形状及位置角度来考虑的,而均值是对所有数据计算后得到的。

方差

在概率论和统计方差衡量随机变量或一组数据时离散程度的度量。概率论中方差用来度量随机变量和其数学期望(即均值)之间的偏离程度。统计中的方差(样本方差)是各个数据分别与其平均数之差的平方的和的平均数

标准差:

那么问题来了,既然有了方差来描述变量与均值的偏离程度,那又搞出来个标准差干什么呢?

    标准差是方差的算术平方根。因为方差与我们要处理的数据的量纲是不一致的(因为做了平方),虽然能很好的描述数据与均值的偏离程度,但是处理结果是不符合我们的直观思维的。

协方差:

在概率论和统计学中,协方差用于衡量两个变量的总体误差。而方差是协方差的一种特殊情况,即当两个变量是相同的情况。

在概率论和统计学中,协方差用于衡量两个变量的总体误差。而方差是协方差的一种特殊情况,即当两个变量是相同的情况。

简单地来说,协方差就是反映两个变量 X 和 Y 的相互关系。这种相互关系大致分为三种:正相关、负相关、不相关。

什么是正相关呢?例如房屋面积(X)越大,房屋总价(Y)越高,则房屋面积与房屋总价是正相关的;

什么是负相关呢?例如一个学生打游戏的时间(X)越多,学习成绩(Y)越差,则打游戏时间与学习成绩是负相关的;

什么是不相关呢?例如一个人皮肤的黑白程度(X)与他的身体健康程度(Y)并无明显关系,所以是不相关的

标准差和方差一般是用来描述一维数据的,但现实生活我们常常遇到含有多维数据的数据集,最简单的大家上学时免不了要统计多个学科的考试成绩。面对这样的数据集,我们当然可以按照每一维独立的计算其方差,但是通常我们还想了解更多,比如,一个男孩子的帅气程度跟他受女孩子欢迎程度是否存在一些联系啊,嘿嘿~协方差就是这样一种用来度量两个随机变量关系的统计量,我们可以仿照方差的定义:

来度量各个维度偏离其均值的程度,协方差可以这么来定义:

举例:协方差的结果有什么意义呢?如果结果为正值,则说明两者是正相关的(从协方差可以引出“相关系数”的定义),也就是说一个人越帅气就越受女孩子欢迎,嘿嘿,那必须的~结果为负值就说明负相关的,越帅气女孩子越讨厌,可能吗?如果为0,也是就是统计上说的“相互独立”。

男生的帅气程度Xi :1.1 ,1.9 ,3

受女生的欢迎程度:Yi :5.0 ,10.4 ,14.6

E(X) = (1.1+1.9+3)/3=2

E(Y) = (5.0+10.4+14.6)/3=10

E(XY)=(1.1×5.0+1.9×10.4+3×14.6)/3=23.02

Cov(X,Y)=E(XY)-E(X)E(Y)=23.02-2×10=3.02

当 Cov(X,Y) > 0 时,X 与 Y 正相关;

当 Cov(X,Y) < 0 时,X 与 Y 负相关;

当 Cov(X,Y) = 0 时,X 与 Y 不相关;

3.02>0说明他们是正相关的。

协方差数值大小是否代表了相关程度呢?

也就是说如果协方差为 100 是否一定比协方差为 10 的正相关性强呢?并不是协方差越大,正相关程度越高

出现这种情况的原因是两种情况数值变化的幅值不同(或者量纲不同)。计算协方差的时候我们并没有把不同变量幅值差异性考虑进来,在比较协方差的时候也就没有一个统一的量纲标准。所以,为了消除这一影响,为了准确得到变量之间的相似程度,我们需要把协方差除以各自变量的标准差。这样就得到了相关系数的表达式:

 

分别计算上面例子X、Y的标准差:

D(X)=E(X^2)-E^2(X)=(1.1^2+1.9^2+3^2)/3 - 4=4.60-4=0.6 σx=0.77

D(Y)=E(Y^2)-E^2(Y)=(5^2+10.4^2+14.6^2)/3-100=15.44 σy=3.93

则X,Y的相关系数:

r(X,Y)=Cov(X,Y)/(σxσy)=3.02/(0.77×3.93) = 0.9979

表明这组数据X,Y之间相关性很好!

为什么除以各自变量的标准差就能消除幅值影响呢?

这是因为标准差本身反映了变量的幅值变化程度,除以标准差正好能起到抵消的作用,让协方差标准化。这样,相关系数的范围就被归一化到 [-1,1] 之间了。

协方差矩阵

      衡量更多变量之间相关性,每个变量和其它每一个变量求协方差组成一个矩阵就是协方差矩阵。

 
 

  

 

 

 

 

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值