1 数据查询的工具
数据分析过程中,少不了数据查询和数据清洗的工作,相关的工具有Excel、SQL、Python等。
对于少量数据:Excel是图形化操作的办公软件,处理少量数据不成问题。处理方法是:使用工具栏的工具或函数,“查询”功能对应的是筛选,“匹配”功能对应的vlookup函数。
对于大量数据:一般使用sql或python处理。sql是结构化查询语言,数据一般存储在数据库中,使用sql查询出来。python是一门编程语言,有很多数据处理的包,比如pandas包就广泛的应用于数据处理。
2 需求和数据源介绍
2.1 数据查询的需求
一般情况下需求有:了解数据概览、查询某一列数据、分组、聚合、表的连接、自定义排序、子查询等。
2.2 数据源介绍两个表的数据
一共2个表,sales表是用户和购买商品的信息,product表是产品信息。已经使用mysql创建表和添加数据,pandas已经加载数据。
3 SQL和Python数据查询的对比
在数据查询方面,SQL非常经典,所以本文把SQL作为标准,使用Pandas来实现SQL类似的查询功能。
3.1 数据概览
拿到一个表,首先需要了解表的基本信息,有哪些字段,分别是什么意思,快速获得数据概览。SQL:desc sales;
Pandas:sales.describe()
3.2 查询前n行记录SQL:select * from sales limit 5;
Pandas:sales.head(5)
3.3 查询某几列数据SQL:select id,