统计基础概念和数据分析方法(一)
1.分析数据集中度和分散度的描述性统计
2.通过样本对总体情况作出推断的推断统计
描述数据有两个关键的问题
第一个是中心度-销售额的集中在哪个区域
第二个是分散度-销售额有多发散,它最大和最小的点在哪里
一.对数据进行描述分析
a.数据的集中度(均值,中位数,众数)
均值:也称平均数,是最常用的衡量集中度的指标
均值误区:极大值或者极小值引起平均值的偏差
中位数:将数据从小到大排列之后,处于正中间位置的那个数字
众数:数据中出现最频繁的那个数字
b.数据的离散度(全距,四分位数,方差和标准差)
全距:数据中最大值和最小值的差,是简单实用的指标
用来说明数据中变大的范围
局限性也非常明显,只用最大值和最小值,这种衡量只能提供较为粗略的信息
四分位数:将数据从小到大排序,均分为四等分。处在25%位置上的数值(Q1),处在50%位置上的中位数(Q2),处在75%位置上的数值(Q3)
方差:更全面的反应数据的离散程度,描述的是数据中每个数据点和平均值偏离的距离
标准差也是衡量数据分散度的一个衡量指标
c.数据的相关性
- 使用散点图
- 用公式计算数据之前的相关系数,相关系数的取值是在-1和1之间
- 越接近1的值:正相关关系越强
- 越接近-1,负相关关系越强
- 越接近0,相关关系越弱
使用散点图和相关系数可以帮助我们排除那些无关的变量
二.对历史数据大量的重复观察,可以发现某种规律-即概率以及概率分布
a.数据类型
1.类别性数据,如:性别,男女
2.数字型数据,如:收入的衡量
b.具体例子
1.分类型数据看概率具体应用
如:访问商业详情页的概率=a/b,a=所有访问商品详情页的用户数,b=所有浏览过商品的用户数
应用:只有两个结果的事件的预测
关注点:如果有很大量的事件时,最终产生某个特定数量事件的概率是多少?
如:app每天推送给50万用户消息,假设每个用户都有60%的概率点击这个推送消息,最终获得35万用户点击这个消息的可能性是多少?
2.数字型变量的概率和分布
正态分布
对数据分析人员最重要的两个属性
1)快速计算数据的概率分布
如:顾客的满意度打分,均值为75,标准差为6,求打分<=80的概率
使用Z评分 Z=(目标数-平均数)/标准差;即Z=(80-75)/6=0.83,然后查询Z评分表,得到概率值
2)在只知道均值和方差的情况下可以知道数据的全部
- 均值+-1个标准差会覆盖68.2%的数据
- 均值+-2个标准差会覆盖95.5%的数据
- 均值+-3个标准差会覆盖99.7%的数据
概率分布为后续的假设验证和数据分析提供了基础,在回归或者分类分析中,很多都对所预测目标或者是误差等做出了特定的分布假设