原文:http://bbs.phpchina.com/thread-13860-1-1.html
Apache和PHP网页的编码问题分析
谈谈Apache和PHP网页的编码。还有一篇关于MySQL字符集的:http://www.phpchina.com/bbs/viewthread.php?tid=13861
谈到Apache的编码我们就要涉及到3个东西
- http标记语言中的<META http-equiv="content-type" content="text/html; charset=xxx">标签
- PHP中的header("content-type:text/html; charset=xxx");函数
- Apache配置文件httpd.conf中的AddDefaultCharset
按顺序来,先说这个<META>标签,这个标签有很多功能的,具体 请点这里。
我今天想说只是上面提到的那种形式。解释一下 <META http-equiv="content-type" content ="text/html; charset=utf-8" >,意思是对这个网页进行声明,让浏览器对整个页面的内容采用xxx编码,xxx可以为GB2312,GBK,UTF-8(和MySQL不同,MySQL是UTF8)等等。因此,大部分页面可以采用这种方式来告诉浏览器显示这个页面的时候采用什么编码,这样才不会造成编码错误而产生乱码。但是有的时候我们会发现有了这句还是不行,不管xxx是哪一种,浏览器采用的始终都是一种编码,这个情况我后面会谈到。
请注意,<meta>是属于html信息的,仅仅是一个声明,它起作用表明服务器已经把HTML信息传到了浏览器。
二、header("content-type:text/html; charset=xxx");
这个函数header()的作用是把括号里面的信息发到http标头。关于此函数具体用法请 点击这里。
如果括号里面的内容为文中所说那样,那作用和<META>标签基本相同,大家对照第一个看发现字符都差不多的。但是不同的是如果有这段函数,浏览器就会永远采用你所要求的xxx编码,绝对不会不听话,因此这个函数是很有用的。为什么会这样呢?那就得说说HTTPS标头和HTML信息的差别了:
https标头是服务器以HTTP协议传送HTML信息到浏览器前所送出的字串。
因为meta标签是属于html信息的,所以header()发送的内容先到达浏览器,通俗点就是header()的优先级高于meta(不知道可不可以这样讲)。加入一个php页面既有header("content-type:text/html; charset=xxx"),又有<META http-equiv="content-type" content="text/html; charset=xxx">,浏览器就只认前者http标头而不认meta了。当然这个函数只能在php页面内使用。
同样也留有一个问题,为什么前者就绝对起作用,而后者有时候就不行呢?这就是接下来要谈的Apache的原因了。
三、AddDefaultCharset
Apache根目录的conf文件夹里,有整个Apache的配置文档httpd.conf。具体如何配置apache请点击这里(windows,linux)。
用文本编辑器打开httpd.conf,第708行(不同版本可能不同)有AddDefaultCharset xxx,xxx为编码名称。这行代码的意思:设置整个服务器内的网页文件https标头里的字符集为你默认的xxx字符集。有这行,就相当于给每个文件都加了一行header("content-type:text/html; charset=xxx")。这下就明白为什么明明meta设置了是utf-8,可浏览器始终采用gb2312的原因。
如果网页里有header("content-type:text/html; charset=xxx"),就把默认的字符集改为你设置的字符集,所以这个函数永远有用。如果把AddDefaultCharset xxx前面加个“#”,注释掉这句,而且页面里不含header("content-type…"),那这个时候就轮到meta标签起作用了。
四、 php.ini 中的 default_charset 配置:
php.ini 中的 default_charset = "gb2312" 定义了 php 的默认语言字符集。一般推荐注释掉此行,
让浏览器根据网页头中的 charset 来自动选择语言而非做一个强制性的规定,这样就可以在同台
服务器上提供多种语言的网页服务。
结束语
其实 php 开发中的中文编码并没有想像的那么复杂,虽然定位和解决问题没有定规,各种运
行环境也各不尽然,但后面的原理是一样的。了解字符集的知识是解决字符问题的基础。不过,
随着中文字符集的变化,不仅仅是 php 编程,中文信息处理中的问题还是会存在一段时间的。
在php程序中还可以用字符转换函数:
iconv(“原编码”,“目标编码”,"要转的字符串")
mb_convert_encoding($string, 字符输出编码, 原字符编码);
总结:
来个排序
- header("content-type:text/html; charset=xxx")
- AddDefaultCharset xxx
- <META http-equiv="content-type" content="text/html; charset=xxx">
至于那句 AddDefaultCharset xxx,要不要注释就仁者见仁了。反正我是注释掉了,不过我写页子也要写header(),便于放到不同的服务器上能正常显示。