了解如何使用Python和GNU Octave执行常见的数据科学任务。
数据科学是跨越编程语言的知识领域。 一些以解决该领域的问题而闻名,而另一些则鲜为人知。 本文将帮助您熟悉使用某些流行语言进行数据科学的过程。
选择Python和GNU Octave进行数据科学
每隔一段时间,我就会尝试学习一种新的编程语言。 为什么? 主要是对旧的方式的厌倦以及对新方式的好奇心的综合心情。 当我开始编程时,我所知道的唯一的语言是C。在那些年里,生活是艰难而危险的,因为我不得不手动分配内存,管理指针并记住释放内存。
然后一位朋友建议我尝试使用Python,生活变得轻松多了。 程序变慢了很多,但我不必因编写分析软件而受苦。 但是,我很快意识到,每种语言都比其他语言更适合某些应用程序。 后来我学习了其他一些语言,每种语言都带来了一些新的启示。 发现新的编程风格使我可以向其他语言回传一些解决方案,一切都变得更加有趣。
为了感受一种新的编程语言(及其文档),我总是从编写一些示例程序开始,这些示例程序执行我很熟悉的任务。 为此,我将解释如何使用Python和GNU Octave编写程序来完成您可以归类为数据科学的特定任务。 如果您已经熟悉其中一种语言,请从该一种语言开始,然后遍历其他语言以寻找相似之处和不同之处。 我不打算与各种语言进行详尽的比较,只是展示一下。
所有程序均应在命令行上运行,而不是通过图形用户界面(GUI)运行。完整的示例可在polyglot_fit存储库(链接)中找到。
编程任务
您将在本系列中编写的程序:
从CSV文件读取数据
用直线内插数据(即f(x)= m⋅x + q)
将结果绘制到图像文件
这是许多数据科学家遇到的普遍情况。 示例数据是Anscombe四重奏的第一组,如下表所示。 这是一组人工构建的数据,当拟合直线时可以提供相同的结果,但是它们的曲线非常不同。 数据文件是一个文本文件,其中的制表符用作列分隔符,几行作为标题。 该任务将仅使用第一组(即前两列)。
详情参阅 - 亚图跨际