对于数据分析师来说,掌握以下数据分析工具很有必要,一个好的数据分析工具,可以使得数据分析工作事半功倍,相对于整个数据分析学习流程来说,掌握数据分析工具是学习数据分析的关键。
日常数据分析中,有80%的时间都是在数据处理和数据可视化,所以,借助工具进行数据清洗以及可视化很有必要,可以提高数据处理效率,以及丰富分析内容,针对不同的数据分析应用场景,可分为初级、中级、高级工具,下面举例说明。
01. 初级应用工具
刚刚入门学习数据分析使用Excel最为合适不过了,Excel操作简单,界面简洁,功能较多,不管是数据处理还是数据可视化,总能得心应手,并且,作为一款职场必备办公软件,其功能特点被大家所熟知,初级应用工具推荐使用Excel。
对于Excel的学习,通常要求掌握数据分类汇总、数据透视表的使用,五类常用的Excel函数,包括文本清洗类、关联匹配类、逻辑运算类、计算统计类、时间序列类五类,除此之外,Excel还有比较多的工具箱,比如Excel自带的数据分析工具箱、PowerMap,独立开发的工具箱比如方方格子、EasyCharts、tusimple BI都能使得数据分析更加便捷。
比如这里使用tusimple BI可以创建多种精美的图表,tusimple BI是一款专业的Excel 商务图表绘制插件,拥有超过120+项图表功能,傻瓜式一键出图,帮助用户轻松、高效地制作Excel所不能制作的高级图表,从此图表制作不再是难题。
使用tusimple Bl让Excel增加了更为丰富的可视化库,既有瀑布图、马赛克图、增长箭头等咨询公司专属图表,也有华夫图、玫瑰图、桑基图等时尚流行的信息图表。这些图表100%采用Excel原生图表制作,完全和内置图表属性一样,随数据变化而自动更新。
02. 中级应用工具
熟练掌握Excel后,可以尝试使用一些更高级的数据分析工具,一方面,如果数据量比较大的时候,仍然使用Excel就会变得比较困难,处理效率慢不说,就连打开数据量大的表格都是个问题,另一方面,Excel在交互式图表方面功能有所欠缺,而PowerBI和Tableau很好的解决了这个问题,用于创建一个Dashboard最为合适不过,丰富了图表内容。
PowerBI中内置了很多视觉对象,比如这里使用RadialBarChart径向条形图用来展示分类字段的数据达成情况,这里要展示各个市的体育代表团奖牌数据情况,将代表团拖入到Group,奖牌的属性(金牌、银牌、铜牌)拖入到Categories,值拖入到First Measure,就动态呈现了甘肃省第十五届运动会奖牌榜的变化情况。
Animated Bar Chart Race可以动态演示数据达成,这里动态演示不同月份手机品牌数的动态变化,将品牌拖入到Name,数量拖入到Value,月拖入到Period,所有的视觉对象都是内置的,使用起来轻松、方便。
PowerBI和Tableau的使用相对比较简单,在数据清洗方面有大量的功能菜单可以使用,比如数据排序、数据去除重复值、数据聚合等,除此之外,还可以使用软件内的计算字段功能,对数据做更高级的清洗,有意思的是,在数据可视化时,PowerBI和Tableau都可以使用简单的“托拉拽”,就可以生成一个丰富的交互式图表。
03. 高级应用工具
学习了中级应用后,接下来是重头戏,介绍MySQL和Anaconda,之所以放在最后来讲,是因为这两种软件功能实在是太过于强悍,首先说说MySQL软件,MySQL是一种开放源代码的关系型数据库管理系统,简而言之,MySQL用于管理数据,而数据是一个企业的生命线,可见MySQL的重要性不一般,MySQL通常用于数据清洗和数据存储。
其次,再说说Anaconda软件,Anaconda软件是一个开源的包、环境管理器,其具有数据清洗、数据建模、数据可视化等众多的包,比如,下面为常见的数据分析包。
- NumPy:科学运算包
- Pandas:数据处理和分析工具包
- Matplotlib:绘图工具包
- SciPy:数据运算包
- Scikit-learn:机器学习工具包
- Seaborn:可视化包
除常规软件使用,对应的还有一些比较好的编译器和插件,比如MySQL软件可连接Navicat Premium使用,Anaconda软件可连接PyCharm Community 使用,并且,Jupyter Notebook还有众多插件,这里推荐JupyterLab,让你在写代码的时候,感受到插件所带来的快捷,如下就是Anaconda软件连接PyCharm Community进行代码编译。
总结来说,在数据分析不同的学习阶段使用的数据分析工具是不一样的,在入门学习阶段使用Excel即可,并搭配一些Excel插件,后期可以学习PowerBI或者是tableau,推荐使用PowerBI,可以较好的与Excel的学习做衔接,如果想要进阶学习数据分析,可以继续学习SQL和Python,针对不同的使用习惯和应用场景选择合适的数据分析工具。