数据分析 统计基础

统计基础概念和数据分析方法(一)

1.分析数据集中度和分散度的描述性统计

2.通过样本对总体情况作出推断的推断统计

描述数据有两个关键的问题

第一个是中心度-销售额的集中在哪个区域

第二个是分散度-销售额有多发散,它最大和最小的点在哪里

一.对数据进行描述分析

a.数据的集中度(均值,中位数,众数)

均值:也称平均数,是最常用的衡量集中度的指标

均值误区:极大值或者极小值引起平均值的偏差

中位数:将数据从小到大排列之后,处于正中间位置的那个数字

众数:数据中出现最频繁的那个数字

b.数据的离散度(全距,四分位数,方差和标准差)

全距:数据中最大值和最小值的差,是简单实用的指标

用来说明数据中变大的范围

局限性也非常明显,只用最大值和最小值,这种衡量只能提供较为粗略的信息

四分位数:将数据从小到大排序,均分为四等分。处在25%位置上的数值(Q1),处在50%位置上的中位数(Q2),处在75%位置上的数值(Q3)

方差:更全面的反应数据的离散程度,描述的是数据中每个数据点和平均值偏离的距离

标准差也是衡量数据分散度的一个衡量指标

c.数据的相关性

  • 使用散点图
  • 用公式计算数据之前的相关系数,相关系数的取值是在-1和1之间
    • 越接近1的值:正相关关系越强
    • 越接近-1,负相关关系越强
    • 越接近0,相关关系越弱

使用散点图和相关系数可以帮助我们排除那些无关的变量

二.对历史数据大量的重复观察,可以发现某种规律-即概率以及概率分布

a.数据类型

  1.类别性数据,如:性别,男女

   2.数字型数据,如:收入的衡量

b.具体例子

 1.分类型数据看概率具体应用

如:访问商业详情页的概率=a/b,a=所有访问商品详情页的用户数,b=所有浏览过商品的用户数

应用:只有两个结果的事件的预测

关注点:如果有很大量的事件时,最终产生某个特定数量事件的概率是多少?

如:app每天推送给50万用户消息,假设每个用户都有60%的概率点击这个推送消息,最终获得35万用户点击这个消息的可能性是多少?

2.数字型变量的概率和分布

正态分布

对数据分析人员最重要的两个属性

1)快速计算数据的概率分布

如:顾客的满意度打分,均值为75,标准差为6,求打分<=80的概率

使用Z评分 Z=(目标数-平均数)/标准差;即Z=(80-75)/6=0.83,然后查询Z评分表,得到概率值

2)在只知道均值和方差的情况下可以知道数据的全部

  • 均值+-1个标准差会覆盖68.2%的数据
  • 均值+-2个标准差会覆盖95.5%的数据
  • 均值+-3个标准差会覆盖99.7%的数据

概率分布为后续的假设验证和数据分析提供了基础,在回归或者分类分析中,很多都对所预测目标或者是误差等做出了特定的分布假设

 

 

 

 

 

 

 

 

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值