pytho统计csv列不同次数_描述统计复习以及数据集字段分析

最新推荐文章于 2021-01-29 14:17:10 发布

汐西

最新推荐文章于 2021-01-29 14:17:10 发布

阅读量205

点赞数

文章标签： pytho统计csv列不同次数

本文链接：https://blog.csdn.net/weixin_28797889/article/details/112321780

版权

描述统计主要讲述数据分布的集中趋势、离散程度和相关分析。下面主要讲一下集中趋势和离散程度的度量中最常用的部分，以及数据集字段的分析。

集中趋势

中位数

是一组数据排序后处于中间位置上的变量值。它将全部数据等分成两部分，每部分包含50%的数据，一部分数据比中位数大，另一部分则比中位数小。中位数主要用于测度顺序数据中的集中数据，也适用于测度数值型数据的集中趋势，但不适用于分类数据。

四分位数

；

它是一组数据排序后处于25%和75%位置上的值。

下四分位数
上四分位数

平均数

分为简单平均数和加权平均数。

简单平均数 根据未经分组数据计算的平均数称为简单平均数。

加权平均数 根据分组数据计算的平均数称为加权平均数。设原始数据分为k组，各组组中值分别用

,...,

表示，各组变量值出现的频率分别用

,...,

表示，则样本加权平均数的计算公式为：

组中值 分组数据中各组数据的上下限之间的中点数值=（上限+下限）

只有上限的开口组组中值=上限-

邻组组距

只有下限的开口组组中值=下限+

邻组组距

此外，还有众数

一组数据中出现次数最多的数值。

离散程度

异众比率

是指非众数组频数

占总频数

的比例。异众比率越大，非众数组频数占总频数的比例越大，众数的代表型越差，反之。

方差

是指一组数据中各变量值与其平均数离差平方的平均数，常用来反映数据分布的离散程度。

标准差=

离散系数(变异系数）

用于比较不同样本数据的离散程度。离散系数大，说明数据的离散程度也大；离散系数小，说明数据的离散程度也小。

箱形图

描述统计中一种可以直观体现数据分散情况的统计图，可以显示出一种数据种的最大值、最小值、中位数、上四分位数、下四分位数和异常值。

箱形图

数据集字段分析

以以下的婴儿用品数据为例Baby Goods Info Data

(sample)sam_tianchi_mum_baby_trade_history.csv部分截取信息

user_id:用户id 可以对具体某一个用户的购买信息进行追踪，用处不大。

auction_id:购买行为编号 用户购买行为的单独标识编号，用于细化处理数据，用处不大。

cat_id:商品种类ID，cat1:商品属于哪个类别 我们可以利用excel对cat_id和cat1进行计数，算出被购买商品的众数，分析出哪种商品最受欢迎，哪种商品最不受欢迎，然后作出增加或减少进货量的策略。

property:商品属性 反映商品的大小/尺码/品牌算出property的众数，可以显示出这些商品的大小、尺码对消费者决策的影响。

buy_mount:购买数量 反映商品真实的销售情况，根据频数的大小可以判断商品的销量。

day:购买时间 根据购买时间和购买数量，可以分析商品是否有季节性的需求，是否有回头客，促销时间商品销量是否有显著增长，促销计划是否成功。

(sample)sam_tianchi_mum_baby.csv部分截取信息

user_id:婴儿用户id 对应上一张购买用户(家长)的使用用户(婴儿)。

birthday:出生日期 可用于分析各年龄段婴儿对某种商品的需求。

gender:性别（0 男性；1 女性）可用于判断对某种商品的需求在性别上是否存在显著差异。

探讨具体问题

1.2014年双十一当天某品牌商品的促销活动是否成功？

用到的数据：(sample)sam_tianchi_mum_baby_trade_history.csv)中的cat_id、buy_mount、day。

使用数据day数据筛选出2014年11月11日当日的数据，使用数据cat_id根据目标商品的代码筛选出当天该商品的购买记录，再通过数据buy_mount进行计数，最后与该商品2014年11月的平均日销量进行比较。(同样用到上面三个数据）

2.比较男女婴儿对某商品的需求是否存在差异。

用到的数据：(sample)sam_tianchi_mum_baby_trade_history.csv)中的user_id、cat_id、buy_mount、(sample)sam_tianchi_mum_baby.csv中的user_id、gender。

根据user_id合并(sample)sam_tianchi_mum_baby_trade_history.csv和(sample)sam_tianchi_mum_baby.csv两张表。使用数据cat_id根据该商品的代码筛选出其购买记录，再通过数据buy_mount和gender算出男女婴儿的家长购买该商品的频数。

3.比较两个不同商品类别的月销量差异。

用到的数据：(sample)sam_tianchi_mum_baby_trade_history.csv)中的cat1、buy_mount、day。

使用数据cat1筛选出两个不同商品类别的数据，使用数据day和buy_mount计算出两个不同商品类别在各个月的销量，然后作比较。

统计学复习知识摘自《统计学》，作者贾俊平

汐西

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
pytho统计csv列不同次数_描述统计复习以及数据集字段分析

描述统计主要讲述数据分布的集中趋势、离散程度和相关分析。下面主要讲一下集中趋势和离散程度的度量中最常用的部分，以及数据集字段的分析。集中趋势中位数是一组数据排序后处于中间位置上的变量值。它将全部数据等分成两部分，每部分包含50%的数据，一部分数据比中位数大，另一部分则比中位数小。中位数主要用于测度顺序数据中的集中数据，也适用于测度数值型数据的集中趋势，但不适用于分类数据。四分位数；它是...
复制链接

扫一扫