URL 含中文路徑名稱的終極解法

最新推荐文章于 2021-05-12 13:11:27 发布

antswallow

最新推荐文章于 2021-05-12 13:11:27 发布

阅读量1.7k

点赞数

分类专栏： JAVA 文章标签： url freebsd redirect .htaccess documentation encoding

本文链接：https://blog.csdn.net/antswallow/article/details/6691837

版权

JAVA 专栏收录该内容

121 篇文章 0 订阅

订阅专栏

URL 含中文路徑名稱的終極解法

網路科技 Add comments

九月 08 2005

URL 含中文路徑名稱的終極解法 - 利用 mod_fileiri 解決中文檔名問題

當然，對付中文檔名問題的最好的解決方法就是「絕對不要用中文檔名」，然而在許多不得已的狀況下，我們還是被迫要使用中文檔名，這時候問題就來了....

在 Web Server 上使用中文檔名最常遇到的問題就是會發生無法存取的錯誤

發生這種狀況最主要的原因就是在 URL 的定義當中，並沒有任何關於字元集(Charset)的資訊。只有要求對於 URL 中的非 ASCII 符號，要用百分比符號的方式去編碼 (例如: %A4 )

舉個例子來說，對於下面這個含中文檔名的 URL

http://bbs.giga.net.tw/fileiri/中文.html

由於「中文」兩個字並非合法的 ASCII 字元，因此當你在瀏覽器的網址列輸入上面這串 URL 時，瀏覽器會把非 ASCII 字元部分轉換成 %HH 的形式輸出
(關於 URL 的編碼方式，可參閱 Non-ASCII characters in URI attribute values 一文的說明)

但是，URL 中的中文字到底要用 BIG5 還是用 UTF-8 字元集來表示並編碼呢？

在微軟的 IE 裡面，工具→網際網路選項→進階 有個選項「永遠將 URL 傳送成 UTF-8」
如果是英文版則是「Always send URLs as UTF-8」

這個選項打勾的時候（這也是大部分電腦內定的狀況），URL 中的中文字會被當成 Unicode，並用 UTF-8 編碼方式送出，因此 URL 會被瀏覽器偷偷轉成：

http://bbs.giga.net.tw/fileiri/%E4%B8%AD%E6%96%87.html

也就是說，「中文」這兩個字會被瀏覽器用 UTF-8 編碼成「%E4%B8%AD%E6%96%87」的型式後，再把這個編碼過的 URL 送去給伺服器

大部分的中文字用 UTF-8 編碼會變成 3 個 bytes，所以「中文」兩字就變成上面這 6 個 bytes 的編碼「%E4%B8%AD%E6%96%87」

但如果前述的「永遠將 URL 傳送成 UTF-8」選項是沒有打勾的，那情況就不一樣了，
這時候 URL 中的中文字會以 BIG5 的形式編碼送出，URL 就會變成這樣：

http://bbs.giga.net.tw/fileiri/%A4%A4%A4%A5.html

每個中文字用 BIG5 編碼會變成 2 個 bytes，所以「中文」這兩個字就變成上面這 4 個 bytes 的編碼「%A4%A4%A4%A5」

這是在用戶端瀏覽器的亂象，不同的瀏覽器或甚至只是不同的設定，對同樣中文檔名所送出的 URL 編碼格式都可能會不一樣

那伺服器收到這串 URL 要怎麼處理呢？

如同前面所述，URL 網址本身並不含字元集(Charset)的資訊，因此伺服器當然也無法知道用戶端瀏覽器採用那個字元集來對 URL 中的中文檔名解釋、編碼

所以伺服器的標準動作就變成「收到什麼檔名就去讀什麼檔案」

收到 UTF-8 編碼的 URL，就用這個 UTF-8 的檔案名稱去 File System 找檔案，收到 BIG5 編碼的 URL，就用這個 BIG5 的檔案名稱去 File System 找檔案

所以如果檔案系統中的檔名是採用 UTF-8 編碼，那用 BIG5 編碼的 URL 去找檔案就會找不到... 相反的，如果檔案系統中的檔名是採用 BIG5 編碼，那麼用 UTF-8 編碼的 URL 也會找不到檔案！

尤其在 Apache/UNIX 的環境下，從 Windows 用 FTP 把檔案上傳時，中文檔案名稱大多會使用 BIG5 的檔名格式上傳儲存

所以大多數這類的系統都會要求用戶不要在上述「永遠將 URL 傳送成 UTF-8」這個選項打勾，這樣存取 BIG5 的中文檔名就不會有問題了

不過，這種方式不是很友善，對於大多數的網友而言，要去改瀏覽器設定是很不方便的！

那有沒有辦法讓瀏覽器不用更改設定就可以完美解決呢？

其實是有的，那就是這篇文章要介紹的 mod_fileiri 這個 Apache module

mod_fileiri 的最主要功用就是讓伺服器可以想辦法去判斷 URL 的編碼，然後幫忙做轉碼、轉址的動作，讓伺服器可以同時處理 UTF-8 及其他字元集的 URL 編碼

以下是在 FreeBSD 下安裝及設定 mod_fileiri 的方法：

首先是從 CVS 中取得這個 module：

# fetch http://dev.w3.org/cvsweb/~checkout~/apache-modules/mod_fileiri/mod_fileiri.c

然後用 apxs 來編譯及安裝這個 module... (請用 root 身份執行)

# /usr/local/sbin/apxs -i -a -c mod_fileiri.c
/usr/local/share/apache2/build/libtool .....
/usr/local/share/apache2/build/libtool .....
/usr/local/share/apache2/build/libtool .....
cp .libs/mod_fileiri.so /usr/local/libexec/apache2/mod_fileiri.so
----------------------------------------------------------------------
Libraries have been installed in:
   /usr/local/libexec/apache2

If you ever happen to want to link against installed libraries
in a given directory, LIBDIR, you must either use libtool, and
specify the full pathname of the library, or use the `-LLIBDIR'
flag during linking and do at least one of the following:
   - add LIBDIR to the `LD_LIBRARY_PATH' environment variable
     during execution
   - add LIBDIR to the `LD_RUN_PATH' environment variable
     during linking
   - use the `-Wl,--rpath -Wl,LIBDIR' linker flag

See any operating system documentation about shared libraries for
more information, such as the ld(1) and ld.so(8) manual pages.
----------------------------------------------------------------------
grep: /usr/local/libexec/apache2/mod_fileiri.la: No such file or directory
grep: /usr/local/libexec/apache2/mod_fileiri.la: No such file or directory
Warning!  dlname not found in /usr/local/libexec/apache2/mod_fileiri.la.
Assuming installing a .so rather than a libtool archive.
chmod 755 /usr/local/libexec/apache2/mod_fileiri.so
[activating module `fileiri' in /usr/local/etc/apache2/httpd.conf]

apxs 不但會產生 mod_fileiri.so 並把它複製到 /usr/local/libexec/apache2/ 下面，
甚至還會幫你把 httpd.conf 的設定改好喔！

然後你只要重新啟動 Apache 就完成了，簡單吧！

# /usr/local/etc/rc.d/apache2.sh restart

接下來就要開始設定 mod_fileiri 的工作了...

mod_fileiri 有三個 directives 可用，分別是 FileIRI、FilenameCharset、OldFilenameCharset，位置可以放在 Server Config / Directory / Virtual Host 裡面，甚至 .htaccess 裡面也可..

FileIRI 有四個選項： Off、On、Backwards、Only

Off 就不用說了，設定成 Off 等於是沒有設定的狀況

On 則是指檔案系統上面的目錄或檔案名稱使用的是比較舊的編碼方式(Legacy Encoding)，例如 BIG5，然後提供檔案給所有採用 UTF-8 編碼過的 URL，同時，如果 mod_fileiri 發現 URL 並不是採用 UTF-8 編碼，就會對該 URL 做一個 HTTP/1.0 301 Moved Permanently，把它 redirect 到 UTF-8 型式的 URL

如果以前述的例子來看，設定應該是這樣的 (我習慣直接設在目錄的 .htaccess 下面)

<IfModule mod_fileiri.c>
  FileIRI          On
  FilenameCharset  Big5
</IfModule>

這樣設定之後，我們用 wget 來測試一下：

# wget -S -O /dev/null http://bbs.giga.net.tw/fileiri/中文.html
--10:29:34--  http://bbs.giga.net.tw/fileiri/%A4%A4%A4%E5.html
           => `/dev/null'
Resolving bbs.giga.net.tw... 203.187.29.180
Connecting to bbs.giga.net.tw|203.187.29.180|:80... connected.
HTTP request sent, awaiting response...
  HTTP/1.0 301 Moved Permanently
  Date: Thu, 08 Sep 2005 02:29:37 GMT
  Server: Apache/2.0.54 (FreeBSD) PHP/5.0.4
  Location: http://bbs.giga.net.tw/fileiri/%e4%b8%ad%e6%96%87.html
  Content-Length: 354
  Content-Type: text/html; charset=iso-8859-1
  X-Cache: MISS from WebAmpRP@GIGAMEDIA
  Connection: keep-alive

Location: http://bbs.giga.net.tw/fileiri/%e4%b8%ad%e6%96%87.html [following]
--10:29:34--  http://bbs.giga.net.tw/fileiri/%e4%b8%ad%e6%96%87.html
           => `/dev/null'
Reusing existing connection to bbs.giga.net.tw:80.
HTTP request sent, awaiting response...
  HTTP/1.0 200 OK
  Date: Wed, 07 Sep 2005 12:36:30 GMT
  Server: Apache/2.0.54 (FreeBSD) PHP/5.0.4
  Last-Modified: Wed, 07 Sep 2005 12:31:33 GMT
  ETag: "30bd3-14-b986f340;bc359880"
  Accept-Ranges: bytes
  Content-Length: 20
  Content-Type: text/html
  Age: 451
  X-Cache: HIT from WebAmpRP@GIGAMEDIA
  Connection: keep-alive
Length: 20 [text/html]

100%[====================================>] 20

10:29:34 (1.59 MB/s) - `/dev/null' saved [20/20]

從上面可以看到，原本用 BIG5 編碼的 URL，被 redirect 成 UTF-8 型式的 URL，然後就可以正確取得檔案，而這個檔案「中文.html」在檔案系統上是用 BIG5 型式命名的

因此，利用 FileIRI On 就可以順利解決大部分的中文檔名問題了！

那如果你的檔案名稱是採用 UTF-8 命名的呢？這時候你就需要使用 Backwards 這個選項，例如：

<IfModule mod_fileiri.c>
  FileIRI             Backwards
  OldFilenameCharset  Big5
</IfModule>

上述設定的意思是說，所有檔案系統上的檔案都是用 UTF-8 命名，但是對於不是使用 UTF-8 編碼方式的 URL，就會把它 redirect 到 UTF-8 的版本，一樣可以提供服務

FileIRI 還有另外一個選項 Only，這個選項則是設定只提供服務給 UTF-8 編碼過的 URL，而檔案系統上的檔案則是使用 Legacy Encoding。這個方式較不常用，就不多作介紹了

各種設定組合產生的效果可以參考 mod_fileiri 原始網站上面的說明：

http://www.w3.org/2003/06/mod_fileiri/

關於 URL 的字元集編碼問題，可以參考下面這篇更詳細的說明：

An Introduction to Multilingual Web Addresses - Handling the path

antswallow

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录