数据分析工具漫谈
2019年4月1日更新
数据分析工具
根据抽象层次进行分类
任何一个理工科专业的同学,肯定都接触过数据分析类的工具,但可能大部分工具(在抽象层次上)都比较底层。比如有的专业甚至需要用 c/c++ 去做一些分析数据,在这种情况下,需要一个人去做一些与数据分析没有直接关系,但却支持着整个分析过程的繁琐工作。
而文科专业的同学,因为专业所限,大部分情况下不会像理工科专业的同学一样,用一些非常底层的工具去做分析。他们在分析时大多会使用一些抽象层次比较高的工具,这些工具在带来便利性的同时,也损失了一部分的灵活性。
以上是在抽象层次角度对工具进行了高、低两类划分。值得强调的是,这里的高、低只是工具抽象层次上的不同,并没有优劣区别。对于不同情况下的问题,需要根据情况进行合理的选择。
根据分析过程进行分类
从整体分析过程角度来看,大致可以分为三类:
第一类的重点在于记录,不在于分析,比如 Excel 和数据库都归入此类。也许你能够写一些 VBA 对 Excel 中的表格进行一些基础操作,或是写一些 SQL 语句对数据库中的数据进行统计,这类工具可扩展性总归有限;
第二类的重点在于转换、分析,比如 SAS,SPSS,Lingo,Orange,KNIME,Pentaho,Rapidminer,Weka,R,Matlab,Python,Alloma,Spark,Google's dataprep 等工具。甚至连 Linux 中的命令,sed、awk,熟练使用后,都会相当强大。这些工具有一些是开源的,有一些是收费的;有一些是离线使用的,有一些是在线使用的,复杂度也各有差异;
第三类的重点在于展示,可视化。近些年流行起来的工具在这一方面都做的不错,比如 Tableau,PowerBI,QlikView 或是一些专门制作 dashboard(可视化面板)的工具等。
这三类并不是完全割裂开的,而是各有重点,互相渗透,而且各类工具发展的方向也