统计学有趣吗?


来源:数据氧气

作者:拿破仑的DO君

做数据分析的朋友一定知道统计学,是我们工作的基础。在我们眼中,统计学是很多数字和模型组成的,略显枯燥。

最近看了一个纪录片《The joy of stats》,中文译名有趣的统计学,今天给大家分享个有意思的瑞典统计学家汉斯.罗斯林,以及他眼中有意思的统计学。

《时代》杂志在2012年将汉斯·罗斯林评为了全球100位最有影响力的人物之一,称赞他使用“令人惊叹的数据展示,让全球数百万人从全新的角度审视自己和这座星球”。

01

统计学的起源与核心

首先谈到的是统计学的起源。statistics与status同源,意思是现象或现状,也与国家(states)相似含有国情调查意思,统治阶级利用数据监控老百姓,而现代统计学,是用于监控政府动态,研究社会现象的有力工具。瑞典政府是世界上第一个对人口进行统计的国家,1749年的人口统计报告表明瑞典只有两百万人口,而不是期待的2千万。

我喜欢的其中罗斯林说到的一句话是 “分析资料才是最重要的,这是统计学的核心”。回顾数据分析工作中,数据是基础,但不要沉迷于数据,要用有目的地的分析数据,找到数据背后的规律和信息,从而影响业务工作,产生价值。

02

可视化让统计变成故事

这部片子里好展示了统计学在人口、安全、卫生、健康、机器翻译、天文、自然界的变化、甚至情感等众多领域的应用。让我印象深刻和有意思是数据可视化领域。将数据背后的信息用故事传达个观众。

可视化的先驱是英国的护士和统计学家南丁格尔,她用玫瑰图,以表达军医院季节性的死亡率,对象是那些不太能理解传统统计报表的公务人员,从而推动医改。

而罗斯林也用了自己的方式来讲述有意思的数字。他自己创立了可视化软件 Trendalyzer,后被谷歌收购。他用的最多的一个可视化作品,散点图的方式描述了各国健康水平(预期寿命)和经济发展(人均GDP)的正相关性,并利用动画演示。

03

可视化实践

为了向大师致敬,我特地用可视化神器POWER BI来复现这一动态效果。

【1】数据导入与清洗:是将数字源导入POWER BI,然后在transform模式下编辑这3个数据(将第一行变成表头-1),还需要剔除国家一列中的空值-2;

【2】数据转换与重命名:由于源数据表格是表头是年份,需要用unpivot的转换成我们正常使用的行记录的形式(选择转换其它列)-3,然后对列名进行重命名。

【3】建立关系:3个数据集直接要进行关联(也就是vlookup匹配),采用间接辅助列的方式,使用国家和年份组合的方式形成唯一列country_year,然后在3个表中建立一对一关系;

【4】可视化预处理:使用散点图组件进行作图,然后注意由于人均gdp的数值很大,需要进行对数转换才能让散点图更明显(新建log10的计算列) 

【5】可视化:分别拖入图例,x轴,y轴,以及需要播放的维度 play,大功告成,神奇的动态散点图完成。

◆ ◆ ◆  ◆ ◆

号主新书已经在京东上架了,厉害了!麟哥新书登顶京东销量排行榜!目前京东正在举行100-50的活动,大家可以用原价5折的价格购买:

扫描下方二维码即可进入京东的购买链接(https://item.jd.com/12686131.html):


数据森麟公众号的交流群已经建立,许多小伙伴已经加入其中,感谢大家的支持。大家可以在群里交流关于数据分析&数据挖掘的相关内容,还没有加入的小伙伴可以扫描下方管理员二维码,进群前一定要关注公众号奥,关注后让管理员帮忙拉进群,期待大家的加入。

管理员二维码:

猜你喜欢

 笑死人不偿命的知乎沙雕问题排行榜

 用Python扒出B站那些“惊为天人”的阿婆主!

 全球股市跳水大战,谁最坑爹!

 华农兄弟、徐大Sao&李子柒?谁才是B站美食区的最强王者?

 你相信逛B站也能学编程吗

点击阅读原文即可参与京东100-50购书活动

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值