为什么中位数(大多数时候)比平均值好

开始我的数据分析冒险之旅,我发现了解数据描述的主要统计方法是非常必要的。当我深入研究时,我意识到我很难理解为给定的数据选择哪个集中趋势指标有三种:平均值,中位数和众数。

所以我决定写这篇文章来帮助像我一样在这个领域里的新人来弄明白这一点,而不是害怕数据和统计。这里我们使用Pandas和世界人口的数据来做说明。

首先,我们应该把数据用于探索。我在Kaggle上找到了一个很好的数据集:这个国家的统计数据。它代表了全世界所有国家的经济、社会、基础设施和环境指标。对于我们的研究,我们只需要这个数据框架中的三列:国家名称、地理位置和人口。

https://www.kaggle.com/sudalairajkumar/undata-country-profiles/data

现在我们可以进入我们的问题:我们应该使用哪种集中趋势度量来研究数据,以及为什么。

最简单的部分是关于众数(mode)。它只是行或列中所有值中最常见的值——仅此而已。这是数据中最“流行”的数字。

我们只对非数值使用众数(mode)。为了找到它,我们必须计算一个特定的单元出现在给定列中的频率。结果最好的单位是我们正在寻找的众数(mode)。

在我们的数据集中,我们只能对region列应用一个关于众数(mode)的问题,region列是表中唯一一个有意义的列。因为在Country列中所有的值都是不同的,而在Population列中它们是数字。

我事先清理了这列数据,只留下了五大洲的名称(取而代之的是南亚-亚洲等等)。
在这里插入图片描述

很好。这意味着大多数国家都位于非洲大陆。这并不奇怪,对吧?

现在让我们转到平均值和中值。这两个值都显示了行中心的数字。但方式不同。

平均值是一个平均值(这好像是废话),我们可以通过汇总一行中的所有值,然后将结果除以它们的数量来计算它。让我们看看人口。为了计算平均值,我们应该将所有国家的人口值相加,然后除以数据集中的国家数。幸运的是,pandas可以为我们做这件事。


这个数字表明,在一个正常的国家,平均生活着大约3300万人。

中位数也显示了一个平均数。但它正好是行中间的值。如果我们将总体值从最小到最大排序,则在该排序行的中间位置,中值为:


根据中位数,一个国家的平均人口只有大约550万。根据平均数,它比平均人口要小得多。怎么会这样?

通常中位数和中位数是相当接近的。如果不是,那么问题就出在异常值中—这些值与行中的所有其他值都非常不同。让我们做一个小图形。


我们看到,大多数国家都集中在零附近。但有些数值与众不同。虽然这些点很小,但我们可以看到其中一些点超过2亿,其中两个点接近10亿4亿。对于平均值的计算来说这些都是异常值 因为这就是均值的本质——把所有值都考虑在内。而中位数没有这个缺点。

统计量的稳健性和有效性,以及实际运用时的计算复杂度这三点是数据统计中最重要的衡量标准

平均数是总体均值很好的估计,中位数是对总体中心很好的估计,如果数据是来自某对称未知分布时,估计均值和估计中心是等价的,这时候中位数的效率要比均值低不少

就稳健性而言,显然是中位数更好的,常见的衡量稳健性的指标是崩溃点,即能使统计量“失真”的最大比例,对于均值,只需要有一个点离得无穷大,均值就会无穷大,但改变中位数至无穷大,你最多可以移动一半的数据,所以中位数要比均值稳健的多

最后是计算的复杂性,均值只需要求和除,但中位数,我的理解的话,至少要排个序吧,排序的复杂度应该比直接加要复杂一些,而且很多数据的样本量都特别大,这时候计算均值要方便不少,所以为了简单才会有很多使用平均值计算的情况。

最后:我们可以通过这三个值来简单的查看数据的分布情况,比如:正态分布是单峰对称分布,所以中位数、平均数和众数三个参数都位于对称中心,三者是相等的。

作者 Olga Shebeko

  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
数据质量分析 缺失值 数据集中某个或某些属性的值是不完全的 处理方法:删除数据、数据补齐(统计补充,统一补充)、不处理 异常值分析 异常值定义 数据服从正态分布 ,一组测定值中与平均值的偏差超过两倍标准差的测定值,与平均值的偏差超过三倍标准差的测定值,称为高度异常的异常值。 箱型图分析 箱型图提供了一个识别异常值的标准,即大于或小于箱型图设定的上下界的数值即为异常值 3倍标准差原则 根据正态分布的定义可知,距离平均值3δ之外的概率为 P("x-μ">3δ) <= 0.003 ,这属于极小概率事件,在默认情况下我们可以认定,距离超过平均值3δ的样本是不存在的。 因此,当样本距离平均值大于3δ,则认定该样本为异常值。 简单统计量分析 对属性值进行一个描述性的统计,从而查看哪些值是不合理的 处理方法 1.删除含有异常值的记录 2.将异常值视为缺失值,交给缺失值处理方法来处理 3.用平均值来修正 4.不处理 不一致值 这里不一致可能是不同属性值之间的不一致,比如城市和对应的邮编,也可能是同属性的单位不一致,或数据类型不一致等等。 这个问题大多数情况还是可以批量解决的,像数据类型转换,字符串的规范化,遇到城市和邮编的这种状况也可以用对应的邮编列表来更正 数据分析中的数据探索全文共4页,当前为第2页。数据分析中的数据探索全文共4页,当前为第1页。重复值 数据分析中的数据探索全文共4页,当前为第2页。 数据分析中的数据探索全文共4页,当前为第1页。 重复这个问题也是需要对数据做一个初步的判断,有些重复数据是无用的,需要查重并删除,但是有些情况,比如主题模型当中,需要统计词频,此时不但不能去重,而且相同词根的词也要做出处理,使其在统计时叠加,否则主题概率会出现问题。 特殊符号 具体分析 数据特征分析 数据分布分析 定义 分布分析用来解释数据的分布特征和分布类型,显示其分布情况。分布分析主要分为两种:对定量数据的分布分析和对定性数据的分布分析。 步骤 1:求极差 2:决定组距与组数。3:决定分点。4:得到频率分布表。5:绘制频率分布直方图 对比分析 定义 对比分析通常是把两个相互关系的指标数据进行比较,运用数字展示和说明研究对象规模的大小,水平的高低,速度的快 ,以及各种关系是否协调。 分类 对比分析可分为同比、环比和定基比分析,三者均用百分数和倍数表示。 统计量分析 方法 用统计学指标对定量数据进行描述性分析,例如均值,中位数,众数;极差,标准差,四分位数间距等。 周期性分析 数据分析中的数据探索全文共4页,当前为第4页。数据分析中的数据探索全文共4页,当前为第3页。定义 数据分析中的数据探索全文共4页,当前为第4页。 数据分析中的数据探索全文共4页,当前为第3页。 周期性分析是探索某个变量是否随着时间变化而呈现出某种周期变化趋势。时间尺度相对较长的周期性趋势有年度周期性趋势、季节性周期性趋势、相对较短的有季度周期性趋势、周度周期性趋势、甚至更短的天、小时周期性趋势。 贡献度分析 贡献度分析又称为帕累托分析,他的原理是帕累托法则又称20/80定律,为什么称为20/80定律,因为对于一个公司来说,80%的利润来自20%最畅销的产品,而其他80%的产品只产生了20%的利润,表示把相同的投入成本放在不同的对象就会产生不同的效益。 相关性分析 散点图矩阵 当欲同时考察多个变量间的相关关系时,若一一绘制它们间的简单散点图,十分麻烦。此时可利用散点图矩阵来同时绘制各自变量间的散点图,这样可以快速发现多个变量间的主要相关性 散点图 数据点在直角坐标系平面上的分布图,散点图表示因变量随自变量而变化的大致趋势 简单相关分析 pearson相关系数 Person线性相关系数要求连续变量的取值服从正态分布 Spearman秩相关系数 不服从正态分布的变量,分类或等级变量之间的关联性可采用Spearman秩相关系数 总结上述两者: 只要两个变量具有严格单调的函数关系,那么他们一定是完全Spearman相关,Person相关只有在变量具有线性关系时才完全相关的。在正态分布下Person相关系数和Spearman秩相关系数在效率上面是等价的,但对于连续测量的数据,更适合Person相关系数进行分析。 判定系数 判定系数是相关系数的平方,r^2 来表示,一般用来衡量回归方程对y的解释程度,它的取值范围是0<=r^2<=1,当它越接近1表明x与y的相关性越高,接近0的话表示两个变量之间几乎没有相关性。 偏相关分析 在多要素所构成的系统中,当研究某一个要素对另一个要素的影响或相关程度时,把其他要素的影响视作常数(保持不变),即暂时不考虑其他要素影响,单独研究两个要素之间的相互关系的密切程度,所得数值结果为偏相关系数 数据分析中的数据探索
课堂教学设计表 "课题 " 1.3 电子表格的数据计算 " "(章节名称)" " "学科 "信息技术 "授课年级 "八年级 "学期 "上 " "预计课时数 "1 "本案为其中第 1 课时"课型 "新课 " "选用教材 " "《初中信息技术》八年级上册 (第四版),重庆大学出版社 " "课标与学习需求分析 " "课程内容标准表述: " "能够应用电子表格进行数据的简单统计、计算与直观表达 " "学习者现状: " "八年级的学生对表格很熟悉,大多数同学对excel软件的简单使用有一定的了解 " ",他们能够读懂二维表,能够根据需要设计二维表的行列属性,有些同学很早接" "触了excel软件,能够在excel表格中输入数据和对数据进行简单统计。通过调查" "得知,同学们希望能够自己制作一份班级成绩总分、平均分的统计表,并列出班" "级同学的排名,但是大多数同学都不知道在excel中如何计算出他们的总成绩, " "也不知道如何计算平均分。作为八年级的学生,他们对事物充满好奇,也拥有探" "索精神,因此这节课可以采用探究性的教学模式,同时,也由于个人知识结构、" "兴趣、家庭环境等因素,他们在信息技术认知能力、实际操作能力、知识水平上" "存在一定的差异。 " "总的教学目标: " "学生掌握掌握在excel中利用公式和函数计算出自己的总成绩、平均分成绩,初 " "步掌握利用小技巧给班级同学成绩进行总排名。在自主探究过程中,解决自己的" "疑惑和问题,满足自己的欲,进一步激发自己的学习动力,并能够把这种精神带" "到其他课堂的学习中。 " "教学内容分析 " "知识点:1、在excel表格中,用公式计算数据的平均值和总和 " "2、在excel表格中,用函数求数据的平均值和总和 " "3、在excel表格中,快速计算每行数据的总和 " "4、在word中,用函数求数据的总和 " "5、在金山表格中,用函数计算数据的总和 " "技能点:1、在表格中编辑简单的公式计算数据的平均值和总和 " "2、在表格中编辑函数计算数据的平均值和总和 " "3、在表格中使用技巧快速计算每行数据的总和 " " " "情感点的命名与表示(列表/框架图/流程图): " "提问—>激发兴趣—>自主探究、对比、举一反三—>不断满足自己的求知欲—>知识迁" "移—>合作学习—>拥有利用软件进行数据的处理的意识—>综合信息素养得到提高、" "团队协作意识得到提高 " "学生情况分析 " "知识能力基础:八年级的学生对表格很熟悉,大多数同学对excel软件的简单使 " "用有一定的了解,他们能够读懂二维表,能够根据需要设计二维表的行列属性," "大多数同学通过以前的学习已经掌握了在excel表格中输入中输入数值、文本的 " "方法,也能够对数据进行修改操作。 " "认知风格等:八年级学生思维活跃,想象力丰富,好奇心强,对感兴趣的东西学" "习积极性比较高,且乐于探索,具有一定的独立探索能力,对新鲜事物接收很快" ",有一定的自学能力和动手能力。 " "教学方法选择 " "问题启发式教学模式和讲授演示模式相结合 " "教学环境、教学媒体、教学材料选择 " " 1、教学环境:多媒体网络 " "2、教学媒体:计算机、投影仪、 " "3、教学材料:教师自己制作的去年一年12个月份的水费、电费、话费、维修费 " "等的一个表单纸质的和电子档的 " "板书设计 " "关键教学内容 " "教学目标 " "知识技能目标: " "1、学生掌握在excel表格中,用公式计算数据的平均值和总和的方法 " "2、学生掌握在excel表格中,用函数求数据的平均值和总和的方法 " "3、学生初步掌握在excel表格中,快速计算每行数据的总和的方法 " "4、学生初步掌握在excel表格中,用简便的工具进行简单排序的方法 " "5、学生掌握在word中,用函数求数据的总和的方法 " "6、学生掌握在金山表格中,用函数计算数据的总和的方法 " "过程与方法目标: " "在给定的时间里,学生利用excel运用公式和函数快速计算出每位同学的总成绩 " ",并给同学的成绩按照从高到低的顺序排序,并形成一般的方法。 " " " "情感态度价值观目标: " "1、学生能够自主探究、对比、举一反三 " "2、学生拥有知识迁移的能力 " "3、学生拥有利用软件处理数据、团队协作学习和与他人交流的意识和能力 " "4、学生拥有信息素养 " "重点、难点分析 " "重点:1、在表格中编辑简单的公式计算数据的平均值和总和 " "2、在表格中编辑函数计算数据的平均值和总和 " "难点:1、在表格中编辑函数计算数据的平均值和总和 " "2、在表格中使用技巧快速计算每行数据的总和 " "课堂教学过程结构设计 " "一、创设情境,

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值