MySQL案例讲解——第一期(提供案例数据及源码)
本节内容思维导图:
什么是SQL语言?
结构化查询语言(Structured Query Language)简称SQL,是一种特殊目的的编程语言,是一种数据库查询和程序设计语言,用于存取数据以及查询、更新和管理关系数据库系统。
SQL语言:数据分析中最重要,最常使用的编程语言,强大并且易于理解。
MySQL数据分析案例数据集介绍
该案例所用数据集为电商基础数据集,主要的以下三个数据表。
表1:members,会员表,存放会员信息,字段名,数据类型及解释如图所示,其主键为会员ID。
members数据字典
表2:sales,交易表,存放交易记录信息,字段名,数据类型及解释如图所示,其主键为交易记录ID。
sales数据字典
表3:products,产品表,存放产品信息,字段名,数据类型及解释如图所示,其主键为产品ID。
products数据字典
EXCEL与SQL对比分析
Excel处理数据是储存在一个工作簿中,工作簿由若干个工具表组成。数据库由若干个数据表组成。SQL-每一行称为一个记录,每一列称为一个字段。
思考问题1:在业务问题的解决中,如计算不同产品的交易次数,总交易金额以及平均单价,在Excel中我们要怎样解决呢?
EXCEL解决思路:
1. 使用数据透视表功能
2. 单元格内嵌套公式(我们可能需要区分COUNT,COUNTA,COUNTIF,COUNTIFS等函数功能上的差别)
SQL解决思路:
COUTN() 、 SUM() 、 GROUP BY几个语句就可以轻松解决了
SQL优势
1. SQL语言易学易用,类似英文语法的语言结构
2. SQL具有成熟的标准语句写法
3. SQL语言分析工作流程和思路都保存在单独的文件中,在团队内部可以分享和探讨。而不像EXCEL分析隐藏在各种复杂的公式中。
4. SQL语言可以很轻松的从旧数据迁移到新数据,并验证分析结果是否依然在新数据中成立。
DESCRIBE语句(描述语句)
1. 功能:描述指定表或视图中的列——帮助我们了解数据表中有哪些列
通常数据库中每个表都设有主键——方便数据库管理
主键是各个数据表之间连接的桥梁
从业务的角度来理解,交易id 代表了订单号,顾客id 每个会员购买了产品的会员id,一个顾客id可能买过多次,所以顾客id可以是重复的。
2. DESCRIBE的第二列:数据类型
在MYSQL中,有三种主要的类型,字符、时间和日期、数字类型。
Text类型:
Number 类型:
Date 类型:
3. 好的数据分析习惯是将DESCRIBE表结果存储为文档,即数据字典。
数据字典:对数据中的结构,数据类型,和存储逻辑进行定义的文档。
数据字典会表示这个表有哪些字段,它们的数据类型及意义。
用SQL认识和理解数据——SELECT 语句
由于我们接触到的数据表数据量较为庞大,包含上百万行数据,所以需要给予显示结果行数一定的控制,这里面会用到limit语句。
SELECT * FROM sales limit 5;//限制为显示5行
在查询过程中,如通过SELECT Product_ID from Sales;语句查询商品SKU,但发现我们查询到的有重复值,如要查询总共有多少个不重复产品SKU,可通过Select DISTINCT Product_ID from Sales; 去掉重复的取值或记录。
最后,欢迎大家长按关注我的微信公众号,数据说未来DataAnalysis,数据集及代码后台回复SQL领取,一起学习数据分析相关知识,定期送福利哦~
分享、在看与点赞
只要你点,我们就是胖友