现实世界的分析应用程序通常使用各种编程语言构建,每种编程语言都需要直接访问存储在数据库中的数据。最终目标是创建从数据提取(使用 SQL)到模型开发和持续性能监控的自动分析管道。通过独立的平面文件传输数据早已不复存在!
SQL 和关系数据库几十年来一直处于垄断地位,作为分析领域的全明星脚本语言,Python 对 SQL API 有很好的支持,允许用户直接拉取数据。在这篇博客中,我将分享 3 种方法以及集成 SQL 和 Python 以创建无缝分析工作流的用例。
分析数据集——在线零售数据
将Python连接到关系数据库有两种方式:(1)使用ODBC(开放数据库连接)作为连接引擎来访问托管在远程SQL服务器中的数据库;(2) 使用ORM (Object Relational Mapper)作为抽象层,位于最终用户和数据库之间,提供了更大的灵活性。
对于本练习,我们将在MS SQL服务器中实现 ORM 方法。我们正在使用的数据集是在线零售数据;包含来自英国在线零售商的各种交易的纵向数据集。