SQL学习笔记(一)
需求
在学习数据的时候,不可能所有文件都是直接给你的csv,为了接入体系,sql的数据库学习是很重要的。Python接入SQL后一切也会变得简单起来(毕竟pandas读出来的都是Dataframe233)
代码&数据源
来自SQLZOO的习题集
任务概要
在一周多的时间内,学会Mysql语法的基本逻辑,简单概括下语法,主要是好题集。
语法
SELECT & WHERE
SELECT XXX FROM XXX(AS yyy)
基本操作,规定数据库,规定输出名,输出内容(未处理),其中XXX可做基本运算。
SELECT中也可混用SELECT做复杂定义;
WHERE不赘述
ORDER BY
规定数据的排列,逻辑很精妙的在于是按写入顺序执行排列规则;asc desc可调升序降序
聚类函数
DISTINCT,SUM,COUNT;
DISTINCT逻辑为:唯一不同,用于筛选重复数据和剔除无用数据。
例题
比较懒,之前一直没总结,所以就找几个还记着的典型…
例1
yr subject winner
1960 Chemistry Willard F. Libby
1960 Literature Saint-John Perse
1960 Medicine Sir Frank Macfarlane Burnet
1960 Medicine Peter Madawar
Select the code which would show the year when neither a Physics or Chemistry award was given
SELECT yr FROM nobel
WHERE subject NOT IN(SELECT yr
FROM nobel
WHERE subject IN ('Chemistry','Physics'))
SELECT yr FROM nobel
WHERE subject NOT IN(SELECT subject
FROM nobel
WHERE subject IN ('Chemistry','Physics'))
SELECT yr FROM nobel
WHERE yr NOT IN(SELECT yr
FROM nobel
WHERE subject IN ('Chemistry','Physics'))
SELECT yr FROM nobel
WHERE yr NOT IN(SELECT subject
FROM nobel
WHERE subject IN ('Chemistry','Physics'))
SELECT yr FROM subject
WHERE yr NOT IN (SELECT yr
FROM nobel
WHERE subject IN ('Chemistry','Physics'))
排列逻辑很有意思,如果不懂的话很容易觉得某两个选项是一样的意思(比如第一遍写的我)
关注BC
B判断每项subject是否是化学/物理奖,不是就输出,输出结果大致为
yr
2015
2015
2015
2015
2015
2014
2014
2014
2014
2014
错误原因:每年会有很多奖项颁发。
例二
The expression subject IN (‘Chemistry’,‘Physics’) can be used as a value - it will be 0 or 1.
Show the 1984 winners and subject ordered by subject and winner name; but list Chemistry and Physics last.
正确写法
SELECT winner,subject
FROM nobel
WHERE yr=1984
ORDER BY subject IN ('Physics','Chemistry') asc,subject,winner
错误写法
SELECT winner,subject
FROM nobel
WHERE yr=1984
ORDER BY subject IN ('Physics','Chemistry') asc,winner,subject
排序逻辑的展示,先按照是否为化学/物理(0,1)判断,1在上面代表是物理化学奖项;再以此为基础按照奖项的首字母排序(1区和0区顺序此时是混乱的);最后按获奖者首字母排序。
总结
这门语言很简单,主要了解的是逻辑和SQL的搭建及进一步分析(Navicat,Pandas),基础语法配合着 必知必会,刷完SQLzoo基本上就算ok了。有兴趣的朋友可以一起学习哈
?
我的个人博客