Apache Rewrite 理解

由于工作需要,查了一下Apache的文档,对其中反向引用和条件的执行做了理解和实验,下面是对Apache 2.2文档的摘录,并在上面做了实验的例子说明,希望能给一些需要深入理解的一些帮助。

 

    其他部分就不做更多的说明,看文档即可。

 

Apachemod_rewrite是提供了强大URL操作的杀手级模块,可以实现几乎所有你梦想的URL操作,其代价是你必须接受其复杂性,因为mod_rewrite对于初学者的主要障碍就是不容易理解和运用,即使是Apache专家有时也会发掘出mod_rewrite的新用途。换句话说:你或者是打退堂鼓永不再用,或者是喜欢它并一生受用。目前存在这样一种倾向:许多初学者只是把URL重写规则当着是会变戏法的魔咒,而并未在使用中真正理解这些规则的含义。

 

本篇文档试图给出充分的背景知识,以便于初学者随后的理解,而不是盲目的复制和粘贴。

mod_rewrite使用的是Perl兼容的正则表达式语法。本文不打算详细讲解正则表达式语法,你可以到PCRE man page, Perl regular expression man page, Mastering Regular Expressions, by Jeffrey Friedl获得这些内容。

 

RewriteRule指令的说明部分有一个简单的正则表达式语法简介,可以去参考一下。

另外需要说明的是可以在表达式的最前面加上一个感叹号('!')表示不匹配,不过这种用法并不符合正则表达式语法。

正则表达式的反向引用能力

 

这是很重要的一点:一旦在Pattern或者CondPattern中使用了圆括号,就会建立内部的反向引用,可以使用$N%N来调用(见下述),并且在SubstitutionTestString中都有效。图-2说明了反向引用被转换和展开的位置。

 

 

-2: The back-reference flow through a rule.

 

内部处理

 

此模块的内部处理极为复杂,但是为了使一般用户避免犯低级错误,也让管理员能充分利用其功能,在此仍然做一下说明。

 

API阶段

 

首先,你必须了解Apache是分若干阶段来处理HTTP请求的。Apache API对每个阶段都提供了一个hook程序。mod_rewrite使用两个hook程序:其一,从URL到文件名的转换hook(用在读取HTTP请求之后、授权开始之前) 其二,修正hook(用在授权阶段和读取目录级配置(.htaccess)之后、内容处理器激活之前)

 

所以,Apache收到一个请求并且确定了响应主机(或虚拟主机)之后,重写引擎即开始处理服务器级配置中的所有mod_rewrite指令(此时处于从URL到文件名转换的阶段),此阶段完成后,最终的数据目录便确定了。接下来进入修正程序段并触发目录级配置中的mod_rewrite指令。这两个阶段并不是泾渭分明的,但都实施了把URL重写成新的URL或者文件名。虽然API最初不是为此目的而设计的,但是现在它已经成为了API的一种用途。记住以下两点,会有助于更好地理解:

虽然mod_rewrite可以将URL重写为新的URL或文件名,甚至将文件名重写为新的文件名,但是之前的API只提供从URL到文件名的hook。在Apache 2.0中,增加了两个丢失的hook以使得处理过程更加清晰。不过这样做并没有给用户带来麻烦,用户只需记住这样一个事实:借助从URL到文件名的hook比最初API设计的目标功能更强大。

令人难以置信的是,mod_rewrite还提供了目录级的URL操作(.htaccess文件),而这些文件必须在将URL转换成文件名之后才会被处理(这是必须的,因为.htaccess存在于文件系统中)。换句话说,根据API阶段,这时再处理任何URL操作已经太晚了。为了解决这个"鸡和蛋"的问题,mod_rewrite使用了一个小技巧:在进行一个目录级的URL/文件名操作时,先把文件名重写回相应的URL(通常这个操作是不可行的,但是参考下面的RewriteBase指令就能明白它是怎么实现的了),然后,对这个新的URL建立一个新的内部的子请求,再重新开始API阶段的执行。

 

另外,mod_rewrite尽力使这些复杂的操作对用户透明。但仍须记住:服务器级的URL操作速度快而且效率高,而目录级的操作由于这个"鸡和蛋"的问题速度较慢而且效率也低。但从另一个侧面看,这却是mod_rewrite得以为一般用户提供(局部限制的)URL操作的唯一方法。

 

牢记这两点!

 

规则集的处理

 

mod_rewrite在这两个API阶段中开始执行时,它会读取配置结构中配置好的 (或者是在服务启动时建立的服务器级的,或者是在遍历目录采集到的目录级的)规则集,然后,启动URL重写引擎来处理(带有一个或多个条件的)规则集。无论是服务器级的还是目录级的规则集,都是由同一个URL重写引擎处理,只是最终结果处理不同而已。

 

规则集中规则的顺序是很重要的,因为重写引擎是按一种特殊的顺序处理的:逐个遍历每个规则(RewriteRule指令),如果出现一个匹配条件的规则,则可能回头遍历已有的规则条件(RewriteCond指令)。由于历史的原因,条件规则是前置的,所以控制流程略显冗长,细节见图-1

 

 

-1:重写规则集中的控制流

 

可见,URL首先与每个规则的Pattern匹配,如果匹配失败,mod_rewrite将立即终止此规则的处理,继而处理下一个规则。如果匹配成功,mod_rewrite将寻找相应的规则条件,如果一个条件都没有,则简单地用Substitution构造的新值来替换URL,然后继续处理其他规则;但是如果条件存在,则开始一个内部循环按其列出的顺序逐个处理。对规则条件的处理有所不同:URL并不与模式进行匹配,而是首先通过扩展变量、反向引用、查找映射表等步骤建立一个TestString字符串,然后用它来与CondPattern匹配。如果匹配失败,则整个条件集和对应的规则失败;如果匹配成功,则执行下一个规则直到所有条件执行完毕。如果所有条件得以匹配,则以Substitution替换URL,并且继续处理。

 

例如下面的配置

RewriteEngine on 

#设置Rewrite日志

RewriteLogLevel 9

RewriteLog "C:/Apache/logs/rewrite.log"

 

RewriteCond $1   ^(.*)/.(.*) [NC]                  1

RewriteCond %{HTTP_HOST}   !^(.*)/.(.*)/.(.*)      2

     

RewriteRule ^/(.*)         /$1?ID=%1               3

 

#RewriteCond ...............                              4

#RewriteRule ^/(.*) ............                            5

 

假设在浏览器中输入 http://www.domain.com/index.php,服务器端将会进行如下操作

规则集合的执行:逐个遍历每个规则(RewriteRule指令),发现第(3)行,则用输入 /index.php作为RewriteRulePattern进行匹配,如果匹配不成功,则会继续往下处理其他的RewriteRule。如果成功,则会去寻找本条RewriteRule前面的全部RewriteCond,然后从第找到的第一个RewriteCond开始,建立TestString字符串,然后用它来与CondPattern匹配。如果匹配失败,则整个条件集和对应的规则失败;如果匹配成功,则执行下一个规则直到所有条件执行完毕。如果所有条件得以匹配,则以Substitution替换URL,并且继续处理。

 

上面的例子,如果执行到(5),则只会有(4)这个RewriteCond被处理,(3)前面的(1)(2)不会再次被处理,如果开始执行的时候(3RewriteRule没有匹配,则(1)(2)就不会有被执行的机会。

 

反向引用:

从前面的例子和上面的图可以看出,

Substitution可以反向引用当前Pattern中的匹配的分组成分(圆括号!)

引用方法是: $N  (0 <= N <= 9)

也可以反向应用RewriteCond条件中最后符合的条件中的分组成分(圆括号!)。记住是最后一个匹配成功的。

引用方法是: %N  (1 <= N <= 9)

 

同样,TestString中可以包含反向引用当前匹配的RewriteRulePattern部分的匹配的分组成分(圆括号!)

引用方法是: $N  (0 <= N <= 9)

从处理图看,只能对该RewriteCond前面的被成功处理过的CondPattern分组成分(圆括号!)进行引用,即条件(2)可以对(1)进行反向引用。

 

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值