PostgreSQL中使用的标准SQL语法入门指南
SQL是用于数据分析的最重要的编码语言。 有人可能会认为Python和R同样重要,但是当涉及到最常见的工具时,分析师必须拥有的就是SQL。
根据Dataquest.io的说法,几乎所有技术界的大人物都使用SQL。 优步(Uber),Netflix,Airbnb-名单还在继续。 即使在像Facebook,Google和Amazon这样的公司中,它们已经建立了自己的高性能数据库系统,数据团队也使用SQL查询数据并执行分析。
像每种语言一样,您需要不断练习以理解和掌握概念。 我认为,一旦您了解了代码的基本结构,SQL便是更易于使用的语言之一。 在本文中,我分享了开始SQL查询的必要步骤。
标准SQL结构
这是一系列PostgreSQL备忘单的第1部分,它将介绍SELECT,FROM,WHERE,GROUP BY,HAVING,ORDER BY和LIMIT。
从单个表中提取结果的查询的基本结构如下。
SELECT COLUMN_NAME(S)
FROM TABLE_NAME
WHERE CONDITION
GROUP BY COLUMN_NAME(S)
HAVING AGGREGATE_CONDITION
ORDER BY COLUMN_NAME
LIMIT N
什么是SQL?
SQL(发音为" ess-que-el")代表结构化查询语言。 SQL用于与数据库进行通信。 它是关系数据库管理系统的标准语言。 SQL语句用于执行任务,例如更新数据库上的数据或从数据库检索数据。
什么是关系数据库管理系统(RDBMS)?
RDBMS将数据组织成具有行和列的表。 术语"关系"是指每个表中的值相互之间具有关系。
· 行-也称为记录
· 列-也称为字段,具有描述性名称和特定的数据类型。
什么是PostgreSQL?
PostgreSQL是通用和关系数据库管理系统,也是最先进的开源数据库系统。
其他常见的数据库管理系统是MySQL,Oracle,IBM Db2和MS Access。
让我们开始!
SELECT 选择
SELECT语句用于从数据库中选择数据。 返回的数据存储在结果表中,称为结果集。
特定栏
SELECT COLUMN_1, COLUMN_2
FROM TABLE_NAME
所有栏
使用*您可以查询表中的每一列
SELECT *
FROM TABLE_NAME
DISTINCT栏
在列中查找所有唯一记录
SELECT DISTINCT(COLUMN_NAME)
FROM TABLE_NAME
计数所有行
如果您想知道整个表中的所有值都使用COUNT(*),则将获得一个数字。
SELECT COUNT(*)
FROM TABLE_NAME
COUNT个DISTINCT值
如果您想要使用COUNT与DISTINCT来显示一列中不同值的数量,则将获得一个代表一列总唯一值的数字
SELECT COUNT (DISTINCT COLUMN_NAME)
FROM TABLE_NAME
WHERE
使用WHERE子句,您可以创建条件以过滤出所需或不需要的值。
注意— WHERE总是在GROUP BY之前使用(稍后会详细介绍)
SELECT *FROM TABLE_NAMEWHERE CONDITION
条件
SQL中可以使用多种条件。 以下是一些表格示例,其中包含学生在学校的成绩。 您只需要指定一次WHERE,就本例而言,我在每个步骤中都包含WHERE。
WHERE FIRSTNAME = 'BOB' -- EXACT MATCH
WHERE FIRSTNAME != 'BOB' -- EVERTHING EXCLUDING BOB
WHERE NOT FIRSTNAME='BOB' -- EVERTHING EXCLUDING BOB
WHERE FIRSTNAME IN ('BOB', 'JASON') -- EITHER CONDITION IS MET
WHERE FIRSTNAME NOT IN ('BOB', 'JASON') -- EXLUCDE BOTH VALUES
WHERE FIRSTNAME = 'BOB' AND LASTNAME = 'SMITH' -- BOTH CONDITIONS
WHERE FIRSTNAME = 'BOB' OR FIRSTNAME = 'JASON' -- EITHER CONDITION
WHERE GRADES > 90 -- GREATER THAN 90WHERE GRADES < 90 -- LESS THAN WHERE GRADES >= 90 -- GREATER THAN OR EQUAL TO 90
WHERE GRADES <= 90 -- LESS THAN OR EQUAL TO 90
WHERE SUBJECT IS NULL -- RETURNS VALUES WITH MISSING VALUES
WHERE SUBJECT NOT NULL -- RETURNS VALUES WITH NO MISSING VALUES
条件-通配符
在WHERE子句中使用LIKE运算符在列中搜索指定的模式。 当您在''中传递LIKE运算符时,大写和小写都很重要。
通常将两个通配符与LIKE运算符结合使用:
· %-百分号代表零个,一个或多个字符
· _-下划线表示单个字符
WHERE FIRSTNAME LIKE 'B%' -- FINDS VALUE STARTING WITH uppercase B
WHERE FIRSTNAME LIKE '%b' -- FINDS VALUE STARTING WITH lowercase B
WHERE FIRSTNAME LIKE '%an%' -- FIND VALUES THAT HAVE "an" IN ANY POSITION
WHERE FIRSTNAME LIKE 'n%' -- FIND VALUES THAT HAVE "n" IN THE SECOND POSITION
WHERE FIRSTNAME LIKE 'B_%' -- FIND VALUES THAT START WITH "B" AND HAVE AT LEAST 3 CHARACTER LENGTH
WHERE FIRSTNAME LIKE 'B%b' -- FIND VALUES THAT START WITH "B" AND END WITH "b"
WHERE FIRSTNAME LIKE '[BFL]' -- FINDS ALL VALUES THAT START WITH 'B', 'F' OR 'L'
WHERE FIRSTNAME LIKE '[B-D]' -- FINDS ALL THE VALUES THAT START WITH 'B', 'C', OR 'D'
WHERE FIRSTNAME LIKE '[!BFL]%' -- FIND EVERYTHING EXCLUDING VALUES STARTING WITH 'B', 'F' OR 'L'
WHERE FIRSTNAME NOT LIKE '[BFL]%' -- SAME AS THE CODE ABOVE. EXCLUDES VALUES 'B', 'F', OR 'L'
WHERE GRADES BETWEEN 80 and 90 -- FIND GRADES THAT BETWEEN THE RANGE 80 AND 90
GROUP BY
GROUP BY函数有助于按所选列计算汇总值。 它通常与聚合函数(COUNT,SUM,AVG,MAX,MIN)一起使用。
SELECT SUBJECT, AVG(GRADES)
FROM STUDENTS
GROUP BY SUBJECT
上面的查询将每个科目分组并计算平均成绩。
SELECT SUBJECT, COUNT(*)
FROM STUDENTS
GROUP BY SUBJECT
上面的查询将计算每个学科的学生人数(人数)。
HAVING 拥有
HAVING子句与WHERE相似,但可用于过滤聚合函数。 HAVING函数位于GROUP BY之后,而WHERE函数位于GROUP BY之前。
如果我们想找到哪个学科的平均成绩达到90分或更高,可以使用以下内容。
SELECT SUBJECT, AVG(GRADES)
FROM STUDENTS
GROUP BY SUBJECT
HAVING AVG(GRADES) >= 90
ORDER
使用ORDER BY函数,可以指定要如何对值进行排序。 继续前面的Student表。
SELECT *
FROM STUDENTS
ORDER BY GRADES DESC
默认情况下使用ORDER BY时,排序将以升序排列。 如果要下降,则需要在列名称后指定DESC。
LIMITS 限制
在Postgres中,我们可以使用LIMIT函数来控制查询中输出多少行。 例如,如果我们想找到成绩最高的前3名学生。
SELECT *
FROM STUDENTS
ORDER BY GRADES DESC
LIMIT 3
由于我们使用的是ORDER BY DESC,因此我们将成绩最高的学生排在首位-现在将其限制为3个值,我们将看到前3名。
总览
希望您可以将此入门指南用于从单个表中查询数据时使用的标准SQL语法。 您可以在SQL中做更多的事情,而我将分享更多的SQL备忘单,以扩展高级语法。
如果您想学习特定的技术,请查看我的其他教程。
· SQL中的日期/时间函数
· 窗口功能简介
· 如何在SQL中使用CTE
· 在SQL中创建表
(本文翻译自Jason Lee的文章《SQL Cheat Sheet (P1)》,参考:https://towardsdatascience.com/sql-cheat-sheet-776f8e3189fa)