哈夫曼树的学习:
创建计算字段
字段:基本上与列的意思相同(数据库列一般称为列,而字段通常用于计算字段连接上)
拼接字段
拼接:将值联结到一起构成单个值
把两个结拼接起来,在MYSQL的SELECT语句中,可以用Concat()函数来拼接
SELECT Concat(vend_name,'(',vend_country,')') FROM vendors ORDER BY vend_name;
可以检索到:ACME (USA)等
删除数据右端多余的空格,可以使用MYSQL的RTrim()函数来完成
LTrim()是去掉串左边的空格
Trim()是去掉串两边的空格
SELECT Concat(RTrim(vend_name),'(',RTrim(vend_country),')' FROM vendors ORDER BY vend_name;
使用别名
拼接后,新计算的名字是不知道是什么,在客户机查看结果时,一个未命名的列不能用于客户机中,此时可以使用别名。
SELECT Concat(RTrim(vend_name),'(',RTrim(vend_country),')') AS vend_title
FROM vendors ORDER BY vend_name;
别名也叫导出列,别名的另一个作用:在实际的表列名中包含不符合规定的字符(如空格)是重新命名他,在原来的名字混淆或者容易误解是扩充它。
执行算术计算
SELECT prod_id,quantity,item_price FROM orderitems WHERE order_num=200005;
这个SQL语句是检索每项物品的单价
SELECT prod_id,quantity,item_price,quantity*item_price AS expanded_price
FROM orderitems WHERE order_num=200005;
这条语句的输出显示expanded_price列,是计算的quantity*item_price
测试计算:
可以用SELECT Trim('abc');返回abc;
SELECT 3*2;返回6;
SELECT Now();返回当前日期和时间。
使用数据处理函数
Soundex()函数的解释:
如果customers表中有一个顾客是Coyote Inc,其联系名是Y.Lee。但如果这个是输入错误,此联系名实际应该是Y.Lie。
SELECT cust_name,cust_contact FROM customers WHERE cust_contact='Y.Lie';
这个检索查不到数据,因为输入错误,但是用Soundex()函数进行检索,他匹配所有发音类似于Y.Lie,所以可以搜索到Y.Lee
SELECT cust_name,cust_contact FROM customers WHERE Soundex(cust_contact)=Soundex('Y.Lie');
日期和时间处理函数
SELECT cust_id,order_num FROM orders WHERE order_date='2005-09-01';
order_data数据类型为datatime,检索出订单中“2005-09-01”,但是如果订单中这一列包含日期和时间,“2005-09-01 11:30:05”,则该条件会检索失败
解决的办法是:仅将给出的日期与列中的日期部分进行比较,而不是将给出的日期与整个列值进行比较,此时用到Date(order_date)指示提取列的日期部分:
SELECT cust_id,order_num FROM orders WHERE Date(order_date)BETWEEN '2005-09-01' AND '2005-09-30';
可以匹配到从一个日期范围。
数值处理函数
汇总数据
聚集函数:
运行在行组上,计算和返回单个值的函数。
检索数据,以便分析和报表生成。
- 确定表中的函数(或满足某个条件或包含某个特定值的行数)
- 获得表中行组的和
- 找出表列(或所有行或特定的行)的最大值、最小值和平均值
AVG()函数
AVG()函数通过对表中行数奇数并计算特定列值之和,求得改列的平均值,也可以用来返回特定列或行的平均值。
SELECT AVG(prod_price) AS avg_price FROM products;
返回值是avg_price,包含products表中的所有产品的平均价格。(avg_price是一个别名)
SELECT AVG(prod_price) AS avg_price FROM products WHERE vend_id=1003;
返回特定类的平均价格。
- AVG()只能用来确定单个列的平均值,列名不想作为函数参数给出,为了获得多个列的平均值,不行使用多个AVG()函数。
- AVG()函数忽略列值为NULL的行 。
COUNT()函数
COUNT函数进行计数,两种使用方式:
- 使用COUNT(*)对表中行的数目进行计数,不管表列中包含的是不是空值(NULL)
SELECT COUNT(*) AS num_cust FROM customers;
对所有行进行计数,不管列中有什么值
- 使用COUNT(column)对特定列中具有值的行进行计数,忽略NULL值
SELCT COUNT(cust_email) AS num_cust FROM customers;
对cust_email列中有值的所有行进行计数(不包括NULL)
MAX()函数
MAX()返回指定列中的最大值,MAX()要求指定列名。
SLECT MAX(prod_price) AS max_price FROM products;
对非数值数字使用MAX() ,一般用来找到最大的数值或日期值
用在文本数据时,如果数据按相应的列排序,则MAX()返回最后一行
MIN()函数
MIN()返回指定列中的最小值,要求列名
使用方法与MAX()函数相似
SUM()函数
SUM() 函数用来返回指定列值的和
SELECT SUM(quantity) AS items_ordered FROM orderitems WHERE orderitems WHERE order_num=20005;
返回订单中所有order_num=200005的物品数量之和
可以在多个列中进行计算,进行计算时忽略NULL的行。
聚焦不同值
以上的聚集函数都可以使用:
- 对所有的行执行计算,指定ALL参数或不给参数(因为ALL是默认行为)
- 只包含不同的值,指定DISTINCT参数
SELECT AVG(DISTINCT prod_price) AS avg_price FROM products WHERE vend_id=1003;
返回的是特定供应商提供的产品的平均价格(平均值只考虑各个不同的价格)
注意:
- DISTINCT必须使用列名,不能用于计算或表达式。
- 将DISTINCT用于MIN()和MAX()没有价值。
组合聚集函数
SELECT COUNT(*) AS num_items,
MIN(prod_price) AS price_min,
MAX(prod_price)AS price_max,
AVG(prod_price)AS price_avg
FROM products;
用单条SELECT语句执行了四个聚集计算,返回四个值。
分组数据
创建分组
SELECT vend_id,COUNT(*) AS num_prods FROM products GROUP BY vend_id;
注意:
- GROUP BY子句可以包含任意数目的列,使得能对分组进行嵌套,为数据分组提供更细致的控制
- 如果在GROUP BY子句中嵌套了分组,数据将在最后规定的分组上进行汇总,(建立分组时,指定的所有列都一起计算,不能从个别的列取数据)
- GROUP BY子句中列出的每个列都必须是检索列或有效的表达式(不能是聚集函数),如果在SELECT中使用表达式,必须在GROUP BY子句中指定相同的表达式,不能使用别名
- 出聚集计算语句外,SELECT语句中的每个列都必须在GROUP BY子句中给出
- 如果分组列中具有NULL值,则NULL作为一个分组返回,如果列中有多行NULL值,他们将分为一组
- GROUP BY子句不行出现在WHERE子句之后,ORDER BY子句之前
使用ROLLUP关键字,可以得到每个分组以及每个分组汇总级别的值:
SELECT vend_id,COUNT(*) AS num_prods FROM products GROUP BY vend_id WITH ROLLUP;
过滤分组
除了能用GROUP BY分组数据之外,还允许过滤分组,规定包括哪些分组,排除哪些分组,例如:列出至少两个订单的所有顾客,为得到这种数据,必须基于完整的分组而不是个别的行进行过滤。
WHERE过滤行,而HAVING过滤分组
SELECT cust_id,COUNT(*) AS orders FROM orders GROUP BY cust_id HAVING COUNT(*) >=2;
分组后添加了HAVING子句,过滤了COUNT(*)>=2的那些分组
注意:
WHERE在数据分组前进行过滤,HAVING在数据分组后进行过滤。这是一个重要的区别,WHERE排除的行不包括在分组中。这可能会改变计算值,从而影响HAVING子句中基于这些值过滤掉的分组。
分组和排序
GROUP BY和ORDER BY是非常不同的:
一般在使用GROUP BY子句时,应该也给出ORDER BY子句,这是保证正确排序的唯一方法。
SELECT子句的顺序
使用子查询
以下两条语句可以合并为一句:
SELECT order_num FROM orderitems WHERE prod_id='TNT2';
用查询到结果:20005,20007
SELECT cust_id FROM orders WHERE order_num IN (20005,20007);
SELECT cust_id FROM orders WHERE order_num IN (SELECT order_num FROM orderitems WHERE prod_id='TNT2');
在WHERE子句中使用子查询,应该保证SELECT语句具有与WHERE子句中相同数目的列。
作为计算字段使用子查询
从customers表中检索客户列表
对于检索出的每个客户,统计其在orders表中的行进行计数,并通过一条WHERE子句来过滤某个特定的客户ID,可仅对该客户的订单进行计数。
SELECT cust_name,cust_state,
(SELECT COUNT(*) FROM orders WHERE orders.cust_id=customers.cust_id) AS orders
FROM customers ORDER BY cust_name;
联结表
相同数据多次出现不是好事,此因素是关系数据库设计的基础,关系表的设计就是要保证把信息分解成多个表,一类数据一个表,,各表通过某些常用的值(关系)互相关联。
例子:products表只存储产品信息,它除了存储供应商ID(vendors表的主键)外不存储其他供应商信息,vendors表的主键有叫做products的外键,将vendors表语products表关联,可以用供应商ID从vendors表中找出相应供应商的详细信息。
外键:是某个表的一列,包含另一个表的主键值,定义了两个表之间的关系:
好处:
- 供应商信息不重复,不浪费时间空间
- 如果供应商信息变动,可以只更新一个表中的记录
SELECT vend_name,prod_name,prod_price
FROM vendors,products
WHERE vendors.vend_id=products.vend_id
ORDER BY vend_name,prod_name;
完全限定列名:用一个点分隔的表名和列名
WHERE子句的重要性:在联结两个表时,要将第一个表中的每一行与第二个表的每一行配对,WHERE子句作为过滤条件,它只包含哪些匹配给定条件的行。
没有WHERE子句,第一个表中的每个行将与第二个表中的每个行配对,而不管逻辑上是否可以配在一起。
内部联结
两个表之间的关系是FROM子句的组成部分,以INNER JOIN指定,在使用这种语法时联结条件用特定的ON子句而不是WHERE子句给出,传递给ON的实际条件与传递给WHERE的相同
SELECT vend_name,prod_name,prod_price
FROM vendors
INNER JOIN products ON vendors.vend_id=products.vend_id;
联结多个表
SELECT cust_name,cust_contact
FROM customers
WHERE cust_d IN(SELECT cust_id FROM orsers WHERE order_num IN(SELECT order_num FROM orderitems WHERE prod_id='TNT2'));
SELECT cust_name,cust_contact
FROM customers,orders,orderitems
WHERE customers.cust_id=orders.cust_id
AND orderitems.order_num=orders.order_num
AND prod_id='TNT2;
创建高级联结
使用表别名
SLECT Concat(RTrim(vend_name),'(',RTrim(vend_countru),')') AS vend_title
FROM vendors
ORDER BY vend_name;
别名除了用于列名和计算字段外,SQL还要允许给表起别名:缩短SQL语句、运行在单条SELECT语句中多次使用相同的表
SELECT cust_name,cust_contact
FROM customers AS c,orders AS o,orderitems AS oi
WHERE c.cust_id=cust_id
AND oi.order_num=o.order_num
AND prod_id='TNT2';
FROM子句中3个表全都具有别名,表别名值用于WHERE子句,但是表别名不仅挪用于WHERE子句,还可以用于szelect的列表,ORDER BY子句已经其他部分。
使用不同类型的联结:自联结,自然联结和外部联结
自联结:
如果一个商品存在问题,想知道生产该物品的供应商生成的其他物品是否也存在这些问题,此查询要求首先找到生成I为DTNTR的物品的供应商,然后找到该供应商生产的其他物品。
子查询的方法:
SELECT prod_id,prid_name
FROM products
WHERE vend_id=(SELECT vend_id FROM products WHERE prod_id='DTNTR');
自联结:
SELECT p1.prod_id,p1.prod_name
FROM products AS p1,products AS p2 WHERE p1.vend_id =p2.vend_id AND p2.prod_id='DTNTR';
此查询中需要的两个表实际上是相同的表,因此products表在FROM子句中出现了两次。但对于products的引用具有二义性。为了解决该问题,使用了表别名。
使用自联结而不用子查询,有时候处理联结远比处理子查询快得多。
自然联结:
无论何时对表进行连接,应该至少有一个列出现在不止一个表中(被连接的列)。标准的联结(内部联结)返回所有数据,甚至相同的列会多次出现。
自然联结排除多次出现,使每个列只返回一次。
SELECT c.*,o.order_date,oi.prod_id,oi.quantity,OI.item_price
FROM customers AS c,orders AS o,orderitems AS oi
WHERE c.cust_id=o.cust_id
AND oi.order_num=o.order_num
AND prod_id='FB';
通配符只对第一个表使用,所有其他列明确列出,所以没有重复的列被检索出来
外部联结:
很多连接将一个表中的行与另一个表中的行相关联,但有时候会需要包含没有关联行的那些行。
- 对每个客户下了多少订单进行计数,包括尚未下单的客户
- 列出所有产品以及订购数量,包括没有人订购的产品
- 计算平均销售规模,包括至今尚未下单的客户
内部联结:
SELECT customers.cust_id,orders.order_num
FROM customers INNER JOIN orders ON customers.cust_id=orders.cust_id;
外部联结:
SELECT customers.cust_id,orders.order_num
FROM customers LEFT OUTER JOIN orders ON customers.cust_id=orders ON customers.cust_id=orders.cust_id;
使用了OUTER JOIN来指定联结类型(而不是在WHERE子句中指定),在使用OUTER JOIN语法时,必须使用RIGHT或LRFT关键字指定包括其所有行的表(RIGHT支持的是OUTER JOIN右边的表,而LEFT指出的是OUTER JOIN左边的表)
上面的例子使用LEFT OUTER JOIN从FROM子句左边表(customers表)中选择所有行。为了从右边的表中选择所有行,应该使用RIGHT OUTER JOIN。
使用带聚集函数的联结
SELECT customers.cust_name,
customers.cust_id,
COUNT(orders.order_num) AS num_ord
FROM customers INNER JOIN orders ON customers.cust_id=orders.cust_id GROUP BY customers.cust_id;
使用左外部联结来包含所有客户,甚至包含哪些没有任何下订单的客户,结果显示也包含了有零个订单的客户。