pytho统计csv列不同次数_描述统计复习以及数据集字段分析

56c2d2cd66a9778091c322697533f359.png

描述统计主要讲述数据分布的集中趋势、离散程度和相关分析。下面主要讲一下集中趋势和离散程度的度量中最常用的部分,以及数据集字段的分析。

集中趋势

中位数

是一组数据排序后处于中间位置上的变量值。它将全部数据等分成两部分,每部分包含50%的数据,一部分数据比中位数大,另一部分则比中位数小。中位数主要用于测度顺序数据中的集中数据,也适用于测度数值型数据的集中趋势,但不适用于分类数据。

四分位数

它是一组数据排序后处于25%和75%位置上的值。
  • 下四分位数
  • 上四分位数

平均数

分为简单平均数和加权平均数。

简单平均数 根据未经分组数据计算的平均数称为简单平均数。

加权平均数 根据分组数据计算的平均数称为加权平均数。设原始数据分为k组,各组组中值分别用

,
,...,
表示,各组变量值出现的频率分别用
,
,...,
表示,则样本加权平均数的计算公式为:

组中值 分组数据中各组数据的上下限之间的中点数值=(上限+下限)

2

只有上限的开口组组中值=上限-

邻组组距

只有下限的开口组组中值=下限+

邻组组距

此外,还有众数

一组数据中出现次数最多的数值。

离散程度

异众比率

是指非众数组频数
占总频数
的比例。异众比率越大,非众数组频数占总频数的比例越大,众数的代表型越差,反之。

方差

是指一组数据中各变量值与其平均数离差平方的平均数,常用来反映数据分布的离散程度。

标准差=

离散系数(变异系数)

用于比较不同样本数据的离散程度。离散系数大,说明数据的离散程度也大;离散系数小,说明数据的离散程度也小。

箱形图

描述统计中一种可以直观体现数据分散情况的统计图,可以显示出一种数据种的最大值、最小值、中位数、上四分位数、下四分位数和异常值。

c736eae58a3f6bcf689b4fe38e0c68bf.png
箱形图

数据集字段分析

以以下的婴儿用品数据为例Baby Goods Info Data

c0f7756990dffe712fb932a0ff83c606.png
(sample)sam_tianchi_mum_baby_trade_history.csv部分截取信息

user_id:用户id 可以对具体某一个用户的购买信息进行追踪,用处不大。

auction_id:购买行为编号 用户购买行为的单独标识编号,用于细化处理数据,用处不大。

cat_id:商品种类ID,cat1:商品属于哪个类别 我们可以利用excel对cat_id和cat1进行计数,算出被购买商品的众数,分析出哪种商品最受欢迎,哪种商品最不受欢迎,然后作出增加或减少进货量的策略。

property:商品属性 反映商品的大小/尺码/品牌 算出property的众数,可以显示出这些商品的大小、尺码对消费者决策的影响。

buy_mount:购买数量 反映商品真实的销售情况,根据频数的大小可以判断商品的销量。

day:购买时间 根据购买时间和购买数量,可以分析商品是否有季节性的需求,是否有回头客,促销时间商品销量是否有显著增长,促销计划是否成功。

a0f16767b1d7127192170b41dd91ffe3.png
(sample)sam_tianchi_mum_baby.csv部分截取信息

user_id:婴儿用户id 对应上一张购买用户(家长)的使用用户(婴儿)。

birthday:出生日期 可用于分析各年龄段婴儿对某种商品的需求。

gender:性别(0 男性;1 女性)可用于判断对某种商品的需求在性别上是否存在显著差异。

探讨具体问题

1.2014年双十一当天某品牌商品的促销活动是否成功?

用到的数据:(sample)sam_tianchi_mum_baby_trade_history.csv)中的cat_idbuy_mountday

使用数据day数据筛选出2014年11月11日当日的数据,使用数据cat_id根据目标商品的代码筛选出当天该商品的购买记录,再通过数据buy_mount进行计数,最后与该商品2014年11月的平均日销量进行比较。(同样用到上面三个数据)

2.比较男女婴儿对某商品的需求是否存在差异。

用到的数据:(sample)sam_tianchi_mum_baby_trade_history.csv)中的user_idcat_idbuy_mount(sample)sam_tianchi_mum_baby.csv中的user_idgender

根据user_id合并(sample)sam_tianchi_mum_baby_trade_history.csv(sample)sam_tianchi_mum_baby.csv两张表。使用数据cat_id根据该商品的代码筛选出其购买记录,再通过数据buy_mountgender算出男女婴儿的家长购买该商品的频数。

3.比较两个不同商品类别的月销量差异。

用到的数据:(sample)sam_tianchi_mum_baby_trade_history.csv)中的cat1buy_mountday

使用数据cat1筛选出两个不同商品类别的数据,使用数据daybuy_mount计算出两个不同商品类别在各个月的销量,然后作比较。


统计学复习知识摘自《统计学》,作者贾俊平

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值