在Excel或Python如何执行大数据分析任务文章中,我们将通过研究如何在两个平台上执行基本分析任务来比较Excel和Python。
Excel是世界上最常用的数据分析软件。为什么?一旦掌握了它,就很容易掌握并具有强大的功能。相比之下,Python的声誉在于它更难使用,尽管一旦您了解到它几乎是无限的,就可以使用它。
但是,这两个数据分析工具实际上如何比较?他们的声誉并不能真正反映现实。在本教程中,我们将研究一些常见的数据分析任务,以演示Python数据分析的可访问性。
本教程假定您具有Excel的中级知识,包括使用公式和数据透视表。
我们将使用Python库pandas,该旨在帮助Python中的数据分析,但是本教程不需要任何Python或pandas知识。
为什么要使用Python vs Excel?
在开始之前,您可能想知道为什么Python甚至值得考虑。您为什么不能只继续使用Excel?
尽管Excel很棒,但是在某些领域中,某些类型的数据分析可以使像Python这样的编程语言更好。这是来自我们的帖子的一些原因:Excel用户应考虑学习编程的9个理由:
a.您几乎可以读取和处理任何类型的数据。
b.自动化和重复性的任务更加容易。
c.处理大型数据集非常重要更快,更容易。
d.其他人可以更轻松地复制和审核您的工作。
e.查找和修复错误更容易。
f.Python是开放源代码,因此您可以查看所使用的库背后的内容。
g.先进的统计和机器学习功能。
h.先进的数据可视化功能。
i.跨平台稳定性-您的分析可以在任何计算机上运行。
需要明确的是,我们不主张将Excel抛在后面-这是一个功能强大的工具,用途广泛!但是,作为Excel用户,也可以利用Python的功能可以节省您的时间,并开拓职业发展机会。
值得记住的是,这两个工具可以协同工作,并且您可能会发现某些任务最好留在Excel中,而另一些则可以从Python提供的功能,灵活性和透明性中受益。
导入我们的数据
首先,让我们熟悉本教程要使用的数据。我们将使用有关销售人员的虚构数据。这是我们的数据在Excel中的样子:
我们的数据保存为名为的CSV文件sales.csv。为了将数据导入熊猫,我们需要先导入熊猫库本身。
上面的代码导入pandas并将其作为语法的别名pd。这听上去很复杂,但这实际上只是一种昵称-这意味着在将来我们可以pd用来指代pandas这样我们就不必每次都键入完整的单词。
要阅读我们的文件,我们使用pd.read_csv():