数据分析统计学必知——描述性统计之概括性度量

本文深入探讨描述性统计,包括位置度量如平均值、中位数、众数,以及变异程度度量如标准差、极差、四分位数。强调了平均值在异常值影响下的不准确性,并介绍了处理方法。同时,文章讨论了统计学在异常值检测、相关性分析中的应用,如皮尔逊和斯皮尔曼相关系数的选择,以及如何区分相关性和因果关系。
摘要由CSDN通过智能技术生成

统计学是数据分析的基石,也是数据分析师的根本。学了统计学,你会发现很多时候的分析并不靠谱。比如很多人都喜欢用平均数去分析一个事物的结果,但是这往往是粗糙的,不准确的。如果学了统计学,那么我们就能以更多更科学的角度看待数据。用统计学作为数据分析的支撑和方向,使得分析结果更加有底气。本文主要分享描述性统计理论结合对应的python实现方式,更好的帮助大家将统计学应用到实际工作中。

文章目录

什么是描述性统计

描述性统计是通过图表或数学方法,对数据资料进行整理、分析,并对数据的分布状态、数字特征和随机变量之间关系进行评估和描述的方法。

一、描述性统计——位置度量【数据集中在哪里】
1、平均值
import pandas as pd

df = pd.DataFrame([3000,4000,4500,5000,5500,6000,20000],columns=['salary'])
df.mean()


缺点:极易受异常值的影响
解决:结尾均值或者取中位数

  • 结尾均值 : 将数据进行从小到大排序后,按照一定比例去掉两端数据,只使用中间部分数据来取平均值。数据量大一般前后取5%,数据量少去头尾即可。
df[df['salary'].isin([df['salary'].min(),df['salary'].max()])==False].mean()

平均值的两个误区 !

①加权平均:给平台用户打分(近三个月的消费频次R,消费间隔F、消费金额M)

df_user = pd.DataFrame({'user_id':[1,2,3,4,5],'R':[3,6,7,10,7],'F':[10,5,9,2,6],'M':[5000,6500,7000,3500,100]})
df_user

这时我们要和业务沟通,可以依据业务经验给这三个维度一个权重值,注意权重总和为1
假如现在的权重值是【0.2,0.3.0.5】

将用户ID 为 1 用户的F值提升了1倍,总的评分才上升了3,这样的结果明显不够准确,这是大家很容易忽略的一点,造成这个问题的原因是因为量纲不一致,RF和M的值相差过大。可以通过对原始数据进行标准化和归一化解决。

  • 标准化(Standardization):将数据转换成均值为0,标准差为1的分布,并非一定是正态的,数值没有固定范围。
  • 归一化1(Normalization):将一列数据变化到某个固定区间中,通常这个区间是【0,1】
  • 归一化2(Mean Normalization):范围【-1,1】,将分子的Xmin换成Xmean即可。
    使用:若对数据范围有严格要求,用归一化(存在极端最大和最小值需要做截尾处理),其余用标准化。

# 标准化
#x 代表每个值,data代表一组数据
def standardization(x,data):
    value = (x - data.mean())/(data.std())
    return value
# 归一化1
def normalization1(x,data):
    value = (x - data.min())/(data.max() - data.min())
    return value
# 归一化2
def normali
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值