[revisit]数据分析工具漫谈

本文探讨了数据分析工具的分类,包括根据抽象层次和分析过程的分类,以及数据分析的成本考虑。提到工具包括Excel、数据库、SAS、SPSS、Python等,并通过案例说明如何根据需求选择合适的工具,强调理解真实问题和平衡成本的重要性。
摘要由CSDN通过智能技术生成

数据分析工具漫谈

2019年4月1日更新

数据分析工具

根据抽象层次进行分类

任何一个理工科专业的同学,肯定都接触过数据分析类的工具,但可能大部分工具(在抽象层次上)都比较底层。比如有的专业甚至需要用 c/c++ 去做一些分析数据,在这种情况下,需要一个人去做一些与数据分析没有直接关系,但却支持着整个分析过程的繁琐工作。

而文科专业的同学,因为专业所限,大部分情况下不会像理工科专业的同学一样,用一些非常底层的工具去做分析。他们在分析时大多会使用一些抽象层次比较高的工具,这些工具在带来便利性的同时,也损失了一部分的灵活性。

以上是在抽象层次角度对工具进行了高、低两类划分。值得强调的是,这里的高、低只是工具抽象层次上的不同,并没有优劣区别。对于不同情况下的问题,需要根据情况进行合理的选择。

根据分析过程进行分类

从整体分析过程角度来看,大致可以分为三类:

  • 第一类的重点在于记录,不在于分析,比如 Excel 和数据库都归入此类。也许你能够写一些 VBA 对 Excel 中的表格进行一些基础操作,或是写一些 SQL 语句对数据库中的数据进行统计,这类工具可扩展性总归有限;

  • 第二类的重点在于转换、分析,比如 SAS,SPSS,Lingo,Orange,KNIME,Pentaho,Rapidminer,Weka,R,Matlab,Python,Alloma,Spark,Google's dataprep 等工具。甚至连 Linux 中的命令,sed、awk,熟练使用后,都会相当强大。这些工具有一些是开源的,有一些是收费的;有一些是离线使用的,有一些是在线使用的,复杂度也各有差异;

  • 第三类的重点在于展示,可视化。近些年流行起来的工具在这一方面都做的不错,比如 Tableau,PowerBI,QlikView 或是一些专门制作 dashboard(可视化面板)的工具等。

这三类并不是完全割裂开的,而是各有重点,互相渗透,而且各类工具发展的方向也

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值