做数据分析,避免不了的要做可视化展示,这次就讲解一下如何通过tableau制作一份可视化图表,来分析一些问题。
需要的工具:excel、tableau public(就是免费版)
需要的技能:数据清洗、数据分解拆分、tableau操作技能、分析能力
1、获取数据
获取数据的渠道有很多种,如果只是前期练手的话,建议去找一下公共数据库来获得一份数据。本次分析数据来自kaggle数据集,数据中只有一部分国家和地区。
2、数据清洗
拿到数据之后,先对数据进行检查,检查的重点包括:数据是否有缺失、数据是否存在异常值
数据如有缺失,查看是否能够结合其他数据进行补充,如果缺失的是字段名称,结合数据和逻辑分析,填补上该字段名称;如果缺失的是数值,可以分析是否是值为0的数据以空白代替。如果无法进行填充,则可删掉该缺失数据。
我拿到的这份数据里,存在国家人口数据、自杀人数数据空缺的情况,因无法获知准确数据,我选择将该国家字段删除,避免后续数据分析得出错误的结论。
数据是否存在异常值,比如本该是数据的字段里出现了文字,这肯定就是异常数据了,如果无法根据其他数据进行修改,建议删除该数据。
3、数据分解拆分-分析目的
在确认数据完整且字段正确的情况下,首先明确自己的分析目的,然后开始数据分解,否则没有目的的分解,到分析的时候就发现怎么跟当初想的不一样啊,无从下手又要重新分解,浪费了很多时间。
我们来看一下我手里的这份数据,字段包括:国家、年份、性别、年龄区间、自杀人数、国家人口。
从这几个字段来看,我们可以简单的想出以下几个分析方向:
3.1 哪个国家的自杀率最高?
3.2 随着年份的变化,各个国家自杀率的变化情况怎样的?
3.3 不同性别的自杀率有明显差异吗?
3.4 不同国家的男女自杀率分布有什么特点?
3.5 不同年龄区间,自杀人数随着年份是如何变化的?
3.6 自杀率最高的国家中,年龄区间和年份的详细分析
大体我们能拆分出以上几个分析目的,可能有人会问,为什么大部分以自杀率为指标,而不是