Oracle树结构查询 start with ... connect by用法简介&sql有向图问题期待新解决方案

本文介绍Oracle数据库中使用STARTWITH和CONNECTBY子句进行树结构数据查询的方法，包括自顶向下和自底向上的查询方式、定义查找起始节点、使用LEVEL显示层级、节点和分支的裁剪以及排序显示等内容。

ORACLE是一个关系数据库管理系统,它用表的形式组织数据,在某些表中的数据还呈现出树型结构的联系。例如，我们现在讨论雇员信息表EMP，其中含有雇员编号（EMPNO）和经理（MGR）两例，通过这两列反映出来的就是雇员之间领导和被领导的关系。有些雇员领导另一些雇员，有些雇员被领导，还有些雇员领导一些人又被别人领导，他们之间的这种关系就是一种树结构，图1.1表示了EMP表雇员间的这种树结构。
　　　　　　　　

　　　　　　　　　　图1.1 EMP表树结构图

　　在这个树结构中，如果一个节点有直接的下属节点（如图中的JONES 有碍SCOTT 和FORD），那么称该节点是下属节点的父节点，下属节点为该节点的子节点。通过雇员的EMPNO和MGR可以看出他们之间的父子节点关系，父节点的EMPNO与子节点的MGR相同。在树结构中，有且仅有一个节点无父节点，如图中的KING，该节点被称为根节点。从图上的标记可以看出，只有KING的MGR为空值。除根节点外，任何节点只有一个父节点，有一个，多个或没有子节点。

早扫描树结构表时，需要依此访问树结构的每个节点，一个节点只能访问一次，其访问的步骤如下：
第一步：从根节点开始；
第二步：访问该节点；
第三步：判断该节点有无未被访问的子节点，若有，则转向它最左侧的未被访问的子节，并执行第二步，否则执行第四步；
第四步：若该节点为根节点，则访问完毕，否则执行第五步；
第五步：返回到该节点的父节点，并执行第三步骤。

总之：扫描整个树结构的过程也即是中序遍历树的过程。

1．树结构的描述
树结构的数据存放在表中，数据之间的层次关系即父子关系，通过表中的列与列间的关系来描述，如EMP表中的EMPNO和MGR。EMPNO表示该雇员的编号，MGR表示领导该雇员的人的编号，即子节点的MGR值等于父节点的EMPNO值。在表的每一行中都有一个表示父节点的MGR（除根节点外），通过每个节点的父节点，就可以确定整个树结构。
在SELECT命令中使用CONNECT BY 和蔼START WITH 子句可以查询表中的树型结构关系。其命令格式如下：
SELECT 。。。
CONNECT BY {PRIOR 列名1=列名2|列名1=PRIOR 裂名2}
[START WITH]；
其中：CONNECT BY子句说明每行数据将是按层次顺序检索，并规定将表中的数据连入树型结构的关系中。PRIORY运算符必须放置在连接关系的两列中某一个的前面。对于节点间的父子关系，PRIOR运算符在一侧表示父节点，在另一侧表示子节点，从而确定查找树结构是的顺序是自顶向下还是自底向上。在连接关系中，除了可以使用列名外，还允许使用列表达式。START WITH 子句为可选项，用来标识哪个节点作为查找树型结构的根节点。若该子句被省略，则表示所有满足查询条件的行作为根节点。
例1 以树结构方式显示EMP表的数据。
SQL> SELECT EMPNO,ENAME，MGR
FROM EMP
CONNECT BY PRIOR EMPNO=MGR
START WITH ENAME=’KING’;
EMPNO ENAME MGR
7839 KING
7566 JONES 7839
7788 SCOTT 7566
7876 ADAMS 7788
7902 FORD 7566
7369 SMITH 7902
7698 BLAKE 7839
7499 ALLEN 7698
7521 WARD 7698
7654 MARTIN 7698
7844 TURNER 7698
7900 JAMES 7698
7782 CLARK 7839
7934 MILLER 7782
14 rows selected.
2．关于PRIOR
运算符PRIOR被放置于等号前后的位置，决定着查询时的检索顺序。
PRIOR被置于CONNECT BY子句中等号的前面时，则强制从根节点到叶节点的顺序检索，即由父节点向子节点方向通过树结构，我们称之为自顶向下的方式。如：
CONNECT BY PRIOR EMPNO=MGR
PIROR运算符被置于CONNECT BY 子句中等号的后面时，则强制从叶节点到根节点的顺序检索，即由子节点向父节点方向通过树结构，我们称之为自底向上的方式。例如：
CONNECT BY EMPNO=PRIOR MGR
在这种方式中也应指定一个开始的节点。
例2 从SMITH节点开始自底向上查找EMP的树结构。
SQL>SELECT EMPNO，ENAME，MGR
FROM EMP
CONNECT BY EMPNO=PRIOR MGR
START WITH ENAME=’SMITH’；

EMPNO ENAME MGR
—————————————————————————
7369 SMITH 7902
7902 FORD 7566
7566 JONES 7839
7839 KING
4 rows selected.
在这种自底向上的查找过程中，只有树中的一枝被显示，这是因为，在树结构中每一个节点只允许有一个父节点，其查找过程是从开始节点起，找到其父节点，再由其父节点向上，找父节点的父节点。这样一直找到根节点为止，结果就是树中一枝的数据。
3．定义查找起始节点
在自顶向下查询树结构时，不但可以从根节点开始，还可以定义任何节点为起始节点，以此开始向下查找。这样查找的结果就是以该节点为开始的结构树的一枝。
例3 查找JONES直接或间接领导的所有雇员信息。
SQL＞SELECT EMPNO，ENAME，MGR
FROM EMP
CONNECT BY PRIOR EMPNO=MGR
START WITH ENAME=‘JONES’；

EMPNO ENAME MGR
——————————————————————————
7566 JONES 7839
7788 SCOTT 7566
7876 ADAMS 7788
7902 FORD 7566
7369 SMITH 7902
5 rows selected.
START WITH 不但可以指定一个根节点，还可以指定多个根节点。
例4 查找由FORD和BLAKE 领导的所有雇员的信息。
SQL>SELECT EMPNO，ENAME，MGR
FROM EMP
CONNECT BY PRIOR EMPNO=MGR
START WITH ENAME IN (’FORD’,’BLAKE’)；
EMPNO ENAME MGR
——————————————————————————
7698 BLAKE 7839
7499 ALLEN 7698
7521 WARD 7698
7654 MARTIN 7698
7844 TURNER 7698
7900 JAMES 7698
7902 FORD 7566
7369 SMITH 7902
8 rows selected.
在自底向上查询树结构时,也要指定一个开始节点，以此开始向上查找其父节点，直至找到根节点，其结果将是结构树中的一枝数据。
4．使用LEVEL
在具有树结构的表中，每一行数据都是树结构中的一个节点，由于节点所处的层次位置不同，所以每行记录都可以有一个层号。层号根据节点与根节点的距离确定。不论从哪个节点开始，该起始根节点的层号始终为1，根节点的子节点为2，依此类推。图1.2就表示了树结构的层次。

层号
KING 1

JONES BLAKE CLARK 2
MILLER 3
SCOTT FORD ALLEN WARD MARTIN TURNER JAMES
ADAMS SMITH 4
图案1.2 EMP表树结构层次图

在查询中，可以使用伪列LEVEL显示每行数据的有关层次。LEVEL将返回树型结构中当前节点的层次，我们可以使用LEVEL来控制对树型结构进行遍历的深度。
例5显示EMP表中的各行数据及层号。
SQL>SELECT LEVEL，EMPNO，MGR
FROM EMP
CONNECT BY PRIOR EMPNO=MGR
START WITH ENAME=‘KING’；
LEVEL EMPNO ENAME MGR
1 7839 KING
2 7566 JONES 7839
3 7788 SCOTT 7566
4 7876 ADAMS 7788
3 7902 FORD 7566
4 7369 SMITH 7902
2 7698 BLAKE 7839
3 7499 ALLEN 7698
3 7521 WARD 7698
3 7654 MARTIN 7698
3 7844 TURNER 7698
3 7900 JAMES 7698
2 7782 CLARK 7839
3 7934 MILLER 7782
14 rows selected.
伪列LEVEL为数值型，可以在SELECT 命令中用语各种计算机。
例6 使用LEVEL改变查询结果的显示形式。
SQL>COLUMN EMPLOYEE FORMAT A20
SQL> SELECT EMPNO,RPAD(‘ ‘,LEVEL*3) ||ENAME EMPLOYEE,MGR
FROM EMP
CONNECT BY PRIORY EMPNO=EMR
START WITH ENAME=’KING’;
EMPNO EMPLOYEE MGR
7840 KING
7566 JONES 7839
7788 SCOTT 7566
7876 ADAMS 7788
7902 FORD 7566
7369 SMITH 7902
7698 BLAKE 7839
7499 ALLEN 7698
7521 WARD 7698
7654 MARTIN 7698
7844 TURNER 7698
7900 JAMES 7698
7782 CLARK 7839
7934 MILLER 7782
14 rows selected.
在SELECT使用了函数RPAD，该函数表示以LEVEL*3个空格进行填充，由于不同行处于不同的节点位置，具有不同的LEVEL值，因此填充的空格数将根据各自的层号确定，空格再与雇员名字拼接，结果显示出这种层次关系，也就是说其雇员名字右侧填充的空格数与它的层数有关。
5．节点和分支的裁剪
在对树结构进行查询时，可以去掉表中的某些行，也可以剪掉树中的一个分支，使用WHERE子句来限定树型结构中的单个节点，以去掉树中的单个节点，但它却不影响其后代节点（自顶向下检索时）或前辈节点（自底向顶检索时）。
SQL>COLUMN EMPLOYEE FORMAT A20
SQL> SELECT EMPNO,RPAD(‘ ‘,LEVEL*3) ||ENAME EMPLOYEE,MGR
FROM EMP
WHERE ENAME!=’SCOTT’
CONNECT BY PRIORY EMPNO=EMR
START WITH ENAME=’KING’;

EMPNO EMPLOYEE MGR
7841 KING
7566 JONES 7839
7876 ADAMS 7788
7902 FORD 7566
7369 SMITH 7902
7698 BLAKE 7839
7499 ALLEN 7698
7521 WARD 7698
7654 MARTIN 7698
7844 TURNER 7698
7900 JAMES 7698
7782 CLARK 7839
7934 MILLER 7782
13 rows selected.
在这个查询中，仅剪去了树中单个节点SCOTT。若希望剪去树结构中的某个分支，则要用CONNECT BY 子句。CONNECT BY 子句是限定树型结构中的整个分支，既要剪除分支上的单个节点，也要剪除其后代节点（自顶向下检索时）或前辈节点（自底向顶检索时）。
例8．显示KING领导下的全体雇员信息，除去SCOTT领导的一支。
SQL> SELECT EMPNO,RPAD(‘ ‘,LEVEL*3) ||ENAME EMPLOYEE,MGR
FROM EMP
CONNECT BY PRIORY EMPNO=EMR
AND ENAME!=’SCOTT’
START WITH ENAME=’KING’;
EMPNO EMPLOYEE MGR
7842 KING
7566 JONES 7839
7902 FORD 7566
7369 SMITH 7902
7698 BLAKE 7839
7499 ALLEN 7698
7521 WARD 7698
7654 MARTIN 7698
7844 TURNER 7698
7900 JAMES 7698
7782 CLARK 7839
7934 MILLER 7782
12 rows selected.
这个查询结果就与例7不同，除了剪去单个节点SCOTT外，还将SCOTT的子节点ADAMS剪掉，即把SCOTT这个分支剪掉了。
当然WHERE子句可以和CONNECT BY子句联合使用，这样能够同时剪掉单个节点和树中的某个分支。
例9．显示KING领导全体雇员信息，除去雇员SCOTT，以及BLAKE领导的一支。
SQL>COLUMN EMPLOYEE FORMAT A20
SQL> SELECT EMPNO,RPAD(‘ ‘,LEVEL*3) ||ENAME EMPLOYEE,MGR
FROM EMP
WHERE ENAME!=’SCOTT’
CONNECT BY PRIORY EMPNO=EMR
AND ENAME!=’BLAKE’
START WITH ENAME=’KING’;
EMPNO EMPLOYEE MGR
7843 KING
7566 JONES 7839
7876 ADAMS 7788
7902 FORD 7566
7369 SMITH 7902
7782 CLARK 7839
7934 MILLER 7782
7 rows selected.
6．排序显示
象在其它查询中一样，在树结构查询中也可以使用ORDER BY 子句，改变查询结果的显示顺序，而不必按照遍历树结构的顺序。
例10 以EMPNO的顺序显示树结构EMP 中的数据。
SQL> SELECT EMPNO,ENAME，MGR
FROM EMP
CONNECT BY PRIOR EMPNO=MGR
START WITH ENAME=’KING’;
ORDER BY EMPNO；

EMPNO ENAME MGR
7369 SMITH 7902
7499 ALLEN 7698
7521 WARD 7698
7566 JONES 7839
7654 MARTIN 7698
7698 BLAKE 7839
7782 CLARK 7839
7788 SCOTT 7566
7839 KING
7844 TURNER 7698
7876 ADAMS 7788
7900 JAMES 7698
7902 FORD 7566
7934 MILLER 7782
14 rows selected.
在使用SELECT 语句来报告树结构报表时应当注意，CONNECT BY子句不能作用于出现在WHERE子句中的表连接。如果需要进行连接，可以先用树结构建立一个视图，再将这个视图与其他表连接，以完成所需要的查询。

http://www.itpub.net/620427.html

通过START WITH . . CONNECT BY . .子句来实现SQL的层次查询

自从Oracle 9i开始，可以通过 SYS_CONNECT_BY_PATH 函数实现将父节点到当前行内容以“path”或者层次元素列表的形式显示出来。

自从Oracle 10g 中，还有其他更多关于层次查询的新特性。例如，有的时候用户更关心的是每个层次分支中等级最低的内容。那么你就可以利用伪列函数CONNECT_BY_ISLEAF来判断当前行是不是叶子。如果是叶子就会在伪列中显示“1”，如果不是叶子而是一个分支（例如当前内容是其他行的父亲）就显示“0”。

在Oracle 10g 之前的版本中，如果在你的树中出现了环状循环（如一个孩子节点引用一个父亲节点），Oracle 就会报出一个错误提示：“ ORA-01436: CONNECT BY loop in user data”。如果不删掉对父亲的引用就无法执行查询操作。而在 Oracle 10g 中，只要指定“NOCYCLE”就可以进行任意的查询操作。与这个关键字相关的还有一个伪列——CONNECT_BY_ISCYCLE，如果在当前行中引用了某个父亲节点的内容并在树中出现了循环，那么该行的伪列中就会显示“1”，否则就显示“0”。

The start with .. connect by clause can be used to select data that has a hierarchical relationship (usually some sort of parent->child, boss->employee or thing->parts).
It is also being used when an sql execution plan is explained.

syntax:
select ... [start with initial-condition] connect by [nocycle] recurse-condition

level
With level it is possible to show the level in the hierarchical relation of all the data.

--oracle 9i
sys_connect_by_path
With sys_connect_by_path it is possible to show the entire path from the top level down to the 'actual' child.

--oracle 10g
connect_by_root
connect_by_root is a new operator that comes with Oracle 10g and enhances the ability to perform hierarchical queries.
connect_by_is_leaf
connect_by_isleaf is a new operator that comes with Oracle 10g and enhances the ability to perform hierarchical queries.
connect_by_iscycle
connect_by_is_cycle is a new operator that comes with Oracle 10g and enhances the ability to perform hierarchical queries.

--start with ... connect by ... 的处理机制
How must a start with ... connect by select statement be read and interpreted?
If Oracle encounters such an SQL statement, it proceeds as described in the following pseude code.

for rec in (select * from some_table) loop
if FULLFILLS_START_WITH_CONDITION(rec) then
RECURSE(rec, rec.child);
end if;
end loop;

procedure RECURSE (rec in MATCHES_SELECT_STMT, new_parent IN field_type) is
begin
APPEND_RESULT_LIST(rec);
for rec_recurse in (select * from some_table) loop
if FULLFILLS_CONNECT_BY_CONDITION(rec_recurse.child, new_parent) then
RECURSE(rec_recurse,rec_recurse.child);
end if;
end loop;
end procedure RECURSE;

created by zhouwf0726 2006.

*******************************************************************************/

--创建测试表，增加测试数据

create table test(superid varchar2(20),id varchar2(20));

insert into test values('0','1');
insert into test values('0','2');

insert into test values('1','11');
insert into test values('1','12');

insert into test values('2','21');
insert into test values('2','22');

insert into test values('11','111');
insert into test values('11','112');

insert into test values('12','121');
insert into test values('12','122');

insert into test values('21','211');
insert into test values('21','212');

insert into test values('22','221');
insert into test values('22','222');

commit;

--层次查询示例
select level||'层',lpad(' ',level*5)||id id from test start with superid = '0' connect by prior id=superid;

select level||'层',connect_by_isleaf,lpad(' ',level*5)||id id from test start with superid = '0' connect by prior id=superid;

--给出两个以前在"数据库字符串分组相加之四"中的例子来理解start with ... connect by ...
--功能：实现按照superid分组,把id用";"连接起来
--实现：以下两个例子都是通过构造2个伪列来实现connect by连接的。

/*------method one------*/
select superid,ltrim(max(sys_connect_by_path(id,';')),';') from(
select superid,id,row_number() over(partition by superid order by superid) id1,
row_number() over(order by superid) + dense_rank() over(order by superid) id2
from test
)
start with id1=1 connect by prior id2 = id2 -1
group by superid order by superid;

/*------method two------*/
select distinct superid,ltrim(first_value(id) over(partition by superid order by l desc),';')
from(
select superid,level l,sys_connect_by_path(id,';') id
from(
select superid,id,superid||rownum parent_rn,superid||to_char(rownum-1) rn
from test
)
connect by prior parent_rn = rn
);

--下面的例子实现把一个整数的各个位上的数字相加,通过这个例子我们再次理解connect by.

create or replace function f_digit_add(innum integer) return number
is
outnum integer;
begin
if innum<0 then
return 0;
end if;
select sum(nm) into outnum from(
select substr(innum,rownum,1) nm from dual connect by rownum<length(innum)
);
return outnum;
end f_digit_add;
/

select f_digit_add(123456) from dual;

Oracle的查询语句：

select mla_parentid, mla_id, mla_name from main_node

start with mla_id=? connect by prior mla_id=mla_parentid

让我们研究这个查询语句：

本语句实际上是 start with ...connect by 的用法， start with 后面所跟的就是就是递归的种子。在上面的示例中，种子是 mla_id 为任意传进去的参数
connect by 后面的"prior" 如果缺省：则只能查询到符合条件的起始行，并不进行递归查询；
connect by prior 后面所放的字段是有关系的，它指明了查询的方向。如果后面放的是 mla_id=mla_parentid 则表明从本节点查向叶子节点；如果后面放的是 mla_parentid = mla_id则表明从根节点查向本节点；

/**********************************************************************************
***********************************************************************************
下面是关于SQL解决有向图问题，在这个例子中作者提到的错误
select * from fares connect by prior arrive = depart start with depart = 'LHR';
ERROR:
ORA-01436: CONNECT BY loop in user data
在oracle10g以上版本可以利用connect by的nocycle参数来解。有兴趣的朋友研究用一条sql实现有向图问题!
***********************************************************************************
**********************************************************************************/

一个常见的高级计算机科学问题可以在“有向图”的范畴之下描述。有向图是由一组向量和边所连接的一组有限的节点。例如，一个节点可以想象为一座“城市”，而每个向量可以想象为两座城市间的一个“航线”。有很多算法和论文讲到如何解决每种可能路线的遍历问题以及寻找最短路径或者最小代价路径的问题。这些算法中大部分都是过程化的，或者是使用递归方面来解决的。然而 SQL 的声明性语言使得解决复杂的有向图问题更加容易，而且不需要很多代码。

让我们以两座城市之间的航线为例子，创建一个表保存一些假想数据：

create table airports
(
code char(3) constraint airports_pk primary key,
description varchar2(200)
);

insert into airports values ('LHR','London Heathrow, UK');
insert into airports values ('JFK','New York-Kennedy, USA');
insert into airports values ('GRU','Sao Paulo, Brazil');

create table fares
(
depart char(3),
arrive char(3),
price number,
constraint fares_pk primary key (depart,arrive),
constraint fares_depart_fk foreign key (depart) references airports,
constraint fares_arrive_fk foreign key (arrive) references airports
);

insert into fares values('LHR','JFK',700);
insert into fares values('JFK','GRU',600);
insert into fares values('LHR','GRU',1500);
insert into fares values('GRU','LHR',1600);

不能使用CONNECT BY 语法来解决如何从伦敦到圣保罗，因为在图中有数据产生一个环（从圣保罗飞回）：

select * from fares connect by prior arrive = depart start with depart = 'LHR';
ERROR:
ORA-01436: CONNECT BY loop in user data

要解决有向图问题，我们需要创建一个临时表来保存两个节点之间所有可能的路径。我们必须注意不复制已经处理过的路径，而且在这种情况下，我们不想路径走回开始处的同一个地点。我还希望跟踪到达目的地所需航程的数目，以及所走路线的描述。

临时表使用以下脚本创建：

create global temporary table faretemp
(
depart char(3),
arrive char(3),
hops integer,
route varchar2(30),
price number,
constraint faretemp_pk primary key (depart,arrive)
);

一个简单的视图可以在稍微简化这个例子中使用的代码。视图可以根据 fares 表中的单个航程计算从 faretemp 表中的一个路径到达一下一个航程的数据：

create or replace view nexthop
as
select src.depart,
dst.arrive,
src.hops+1 hops,
src.route||','||dst.arrive route,
src.price + dst.price price
from faretemp src,fares dst
where src.arrive = dst.depart
and dst.arrive != src.depart;
/
show errors;

这个算法相当简单。首先，使用 fares 表中的数据填充 faretemp 表，作为初始的航程。然后，取到我们刚才插入的所有数据，使用它们建立所有可能的二航程（two-hop）路径。重复这一过程，直至在两个节点之间创建了新路径。循环过程将在节点间所有可能的路径都被描述之后退出。如果我们只对某个开始条件感兴趣，那么我们还可以限制第一次的插入从而减少装载数据的量。下面是发现路径的代码：

truncate table faretemp;
begin
-- initial connections
insert into faretemp
select depart,arrive,1,depart||','||arrive,price from fares;
while sql%rowcount > 0 loop
insert into faretemp
select depart,arrive,hops,route,price from nexthop
where (depart,arrive)
not in (select depart,arrive from faretemp);
end loop;
end;
/
show errors;

select * from faretemp order by depart,arrive;

可以在表 A 中查看输出。

前面的数据有一个小问题。数据是点之间最短路径（最小航程数）的集合。然而，从伦敦到圣保罗的航程却不是最便宜的一个。

要解决最便宜的费用问题，需要对我们的循环做一个改进，当在一个航程中发现一个更便宜的路线时使用这个路线代替原来的路线。
修改后的代码如下：

truncate table faretemp;
declare
l_count integer;
begin
-- initial connections
insert into faretemp
select depart,arrive,1,depart||','||arrive,price from fares;
l_count := sql%rowcount;
while l_count > 0 loop
update faretemp
set (hops,route,price) =
(select hops,route,price from nexthop
where depart = faretemp.depart
and arrive = faretemp.arrive)
where (depart,arrive) in
(select depart,arrive from nexthop
where price < faretemp.price);
l_count := sql%rowcount;
insert into faretemp
select depart,arrive,hops,route,price from nexthop
where (depart,arrive)
not in (select depart,arrive from faretemp);
l_count := l_count + sql%rowcount;
end loop;
end;
/
show errors;

select * from faretemp order by depart,arrive;

可能在表 B中查看输出。

算法发现LHR、JFK、GRU 路线比 LHR、GRU 路线便宜，所以用前者代替了后者。循环将在没有更便宜的费用，
并且没有其它可能路线时退出。