详解页面出现乱码问题

最新推荐文章于 2024-09-14 19:55:29 发布

vebasan

最新推荐文章于 2024-09-14 19:55:29 发布

阅读量4k

点赞数

分类专栏： JavaEE 文章标签：数据库 string php byte dreamweaver character

JavaEE 专栏收录该内容

21 篇文章 0 订阅

订阅专栏

新系统采用了UTF8编码，发到互联网后，在采用了GB2312编码的网站超链接到原系统时出现了乱码。经研究找了原因及解决方法。

原因：如先打开GB2312页面，数据库按照GB2312读取数据库内容。而在此时您再打开UTF-8页面时，若页面没有设置编码，数据库会按照刚刚使用过的编码类型即GB2312读取数据库，这就造成了乱码。

解决方法：

在UTF8编码的页面顶部加上如下代码：

<%
response.codepage=65001
response.charset="UTF-8"
%>

在GB2312编码的页面顶部加上如下代码：

<%
response.codepage=936
response.charset="GB2312"
%>

一个网站如果需要国际化，就需要将编码从GB2312转成UTF-8，
其中有很多的问题需要注意，如果没有转换彻底，将会有很多的编码问题出现！

主要有五个方面：
一..HTML页面转UTF-8编码问题
二.PHP页面转UTF-8编码问题
三.MYSQL数据库使用UTF-8编码的问题
四.JS相关的UTF-8编码问题
五.FLASH相关的UTF-8编码问题

--------------------------------------------------------------------------------

一.HTML页面转UTF-8编码问题

1.在<head>后，<title>前加入一行：

<meta http-equiv=‘Content-Type‘ content=‘text/html; charset=utf-8‘ />

顺序不能错，一定要在<title>标签前加入，否则如果<title>与</title>之间有中文字符的话，
显示的标题有可能是乱码！

2.html文件编码问题:
点击编辑器的菜单：“文件”->“另存为”，可以看到当前文件的编码，确保文件编码为：UTF-8，
如果是ANSI，需要将编码改成：UTF-8。

3.HTML文件头BOM问题：
将文件从其他的编码转换成UTF-8编码时，有时候会在文件的最开始加上一个BOM标签，
在个BOM标签可能会导致浏览器在显示中文的时候出现乱码。

删除这个BOM标签的方法：
1.可以用Dreamweaver打开文件，并重新保存，即可以去除BOM标签！
2.可以用EditPlus打开文件，并在菜单“首选项”->“文件”->"UTF-8标识"，设置为：“总是删除签名”，
   然后保存文件，即可以去除BOM标签！

4.WEB服务器UTF-8编码问题：
如果你按以上所列的步骤做了，还是有中文乱码问题，
请检查你的所使用的WEB服务器的编码问题

如果你使用的是Apache，请将配置文件里的：charset 设成：utf-8(这里仅列出方法，具体格式请参考apache的配置文件)
如果你使用的是Nginx，请将nginx.conf里的：charset   设成 utf-8，
具体找到 "charset   gb2312;"或者类似的语句，改成：“charset   utf-8;”。

--------------------------------------------------------------------------------

二.PHP页面转UTF-8编码问题

1.在代码开始出加入一行：

header("Content-Type: text/html;charset=utf-8");

2.PHP文件编码问题
点击编辑器的菜单：“文件”->“另存为”，可以看到当前文件的编码，确保文件编码为：UTF-8，
如果是ANSI，需要将编码改成：UTF-8。

3.PHP文件头BOM问题：
PHP文件一定不可以有BOM标签
否则，会出现session不能使用的情况，并有类似的提示：

Warning: session_start() [function.session-start]: Cannot send session cache limiter - headers already sent

这是因为，在执行session_start() 的时候，整个页面不能有输出，但是当由于前PHP页面存在BOM标签，
PHP把这个BOM标签当成是输出了，所以就出错了！

所以PHP页面一定要删除BOM标签

删除这个BOM标签的方法：
1.可以用Dreamweaver打开文件，并重新保存，即可以去除BOM标签！
2.可以用EditPlus打开文件，并在菜单“首选项”->“文件”->"UTF-8标识"，设置为：“总是删除签名”，
   然后保存文件，即可以去除BOM标签！

4.PHP以附件形式保存文件的时候，UTF-8编码问题：
PHP以附件形式保存文件，文件名必须是GB2312编码，
否则，如果文件名中有中文的话，将是显示乱码：
如果你的PHP本身是UTF-8编码格式的文件，
需要将文件名变量由UTF-8转成GB2312：

iconv("UTF-8", "GB2312", "$filename");

5.截断显示文章标题时，出现乱码或者“？”问号的问题：
一般文章标题很长的时候，会显示一部分标题，会对文章标题进行截断，
由于一个UTF-8编码格式的中文字符会占用3个字符宽度，
截取标题的时候，有时会只截取到一个中文字符的1个字符或2字符宽度，
没截取完整，将出现乱码或“？”问号的情况，
用下面的函数截取标题，就不会有问题：

function get_brief_str($str, $max_length)
{
   echo strlen($str) ."<br>";
   if(strlen($str) > $max_length)
   {
     $check_num = 0;
     for($i=0; $i < $max_length; $i++)
     {
       if (ord($str[$i]) > 128)
       $check_num++;
     }

     if($check_num % 3 == 0)
     $str = substr($str, 0, $max_length)."...";
     else if($check_num % 3 == 1)
     $str = substr($str, 0, $max_length + 2)."...";
         else if($check_num % 3 == 2)
     $str = substr($str, 0, $max_length + 1)."...";
   }

   return $str;
}

--------------------------------------------------------------------------------

三.MYSQL数据库使用UTF-8编码的问题

1.用phpmyadmin创建数据库和数据表
创建数据库的时候，请将“整理”设置为：“utf8_general_ci”
或执行语句：

CREATE DATABASE `dbname` DEFAULT CHARACTER SET utf8 COLLATE utf8_general_ci;

创建数据表的时候：如果是该字段是存放中文的话，则需要将“整理”设置为：“utf8_general_ci”，
如果该字段是存放英文或数字的话，默认就可以了。
相应的SQL语句，例如：

CREATE TABLE `test` (
`id` INT NOT NULL ,
`name` VARCHAR( 10 ) CHARACTER SET utf8 COLLATE utf8_general_ci NOT NULL ,
PRIMARY KEY ( `id` )
) ENGINE = MYISAM ;

2.用PHP读写数据库
在连接数据库之后：

$connection = mysql_connect($host_name, $host_user, $host_pass);

加入两行：

mysql_query("set character set ‘utf8‘");//读库
mysql_query("set names ‘utf8‘");//写库

就可以正常的读写MYSQL数据库了。

--------------------------------------------------------------------------------

四.JS相关的UTF-8编码问题

1.JS读Cookie的中文乱码问题
PHP写cookie的时候需要将中文字符进行escape编码，
否则JS读到cookie中的中文字符将是乱码。
但php本身没有escape函数，我们新写一个escape函数：

function escape($str)
{
   preg_match_all("/[/x80-/xff].|[/x01-/x7f]+/",$str,$r);
   $ar = $r[0];
   foreach($ar as $k=>$v)
   {
     if(ord($v[0]) < 128)
       $ar[$k] = rawurlencode($v);
     else
       $ar[$k] = "%u".bin2hex(iconv("UTF-8","UCS-2",$v));
   }
   return join("",$ar);
}

JS读cookie的时候，用unescape解码，
然后就解决cookie中有中文乱码的问题了。

2.外部JS文件UTF-8编码问题
当一个HTML页面或则PHP页面包含一个外部的JS文件时，
如果HTML页面或则PHP页面是UTF-8编码格式的文件，
外部的JS文件同样要转成UTF-8的文件，
否则将出现，没有包含不成功，调用函数时没有反应的情况。

点击编辑器的菜单：“文件”->“另存为”，可以看到当前文件的编码，确保文件编码为：UTF-8，
如果是ANSI，需要将编码改成：UTF-8。

--------------------------------------------------------------------------------

五.FLASH相关的UTF-8编码问题

FLASH内部对所有字符串，默认都是以UTF-8处理

1.FLASH读文普通本文件(txt,html)
要将文本文件的编码存为UTF-8
点击编辑器的菜单：“文件”->“另存为”，可以看到当前文件的编码，确保文件编码为：UTF-8，
如果是ANSI，需要将编码改成：UTF-8。

2.FLASH读XML文件
要将XML文件的编码存为UTF-8
点击编辑器的菜单：“文件”->“另存为”，可以看到当前文件的编码，确保文件编码为：UTF-8，
如果是ANSI，需要将编码改成：UTF-8。

在XML第1行写：
<?xml version="1.0" encoding="utf-8"?>

3.FLASH读PHP返回数据

如果PHP编码本身是UTF-8的，直接echo就可以了
如果PHP编码本身是GB2312的，可以将PHP转存成UTF-8编码格式的文件，直接echo就可以了

如果PHP编码本身是GB2312的，而且不允许改文件的编码格式，
用下面的语句将字符串转换成UTF-8的编码格式

$new_str = iconv("GB2312", "UTF-8", "$str");

再echo就可以了

4.FLASH读数据库(MYSQL)的数据
FLASH要通过PHP读取数据库中的数据
PHP本身的编码不重要，关键是如果数据库的编码是GB2312的话，
需要用下面的语句将字符串转换成UTF-8的编码格式

$new_str = iconv("GB2312", "UTF-8", "$str");

5.FLASH通过PHP写数据
一句话，FLASH传过来的字符串是UTF-8格式的，
要转换成相应的编码格式，再操作（写文件、写数据库、直接显示等等）
还是用iconv函数转换

6.FLASH使用本地编码(理论上不推荐使用)
如果想让FLASH不使用UTF-8编码，而是使用本地编码
对于中国大陆地区而言，本地编码是GB2312或GBK
AS程序内，可以添加以下代码：

System.useCodepage = true;

那么FLASH内所有字符都是使用GB2312的编码了
所有导入到FLASH或者从FLASH导出的数据，都应该做相应的编码转换
因为使用本地编码，会造成使用繁体中文地区的用户产生乱码，所以不推荐使用

相关文章:
碰到的一个编码问题
说说字符集和编码
字符串编码(charset,encoding/decoding)问题原理

推荐圈子: JAVA 3T
更多相关推荐埋伏：
1、UTF-8用几个字节表示一个汉字？
这各答案你可能了解，但也可能不了解，我敢打保票一半人会不清楚(包括特意查资料之前的我)。
了解这个对编程有什么影响？

以下我把对yoolywu的回答，转为帖子发表，以表重视。

yollywu的问：
引用
系统有两个子系统，一个是BS的，一个是delphi做的CS，中间的数据传输是通过XML进行传输的。在XML传输的功能实现后，要求对XML进行加密解密.加密解密算法是CS端用delphi写的，然后这边用JAVA写个同样的算法。现在碰到的一个问题是:
用该算法的时候，CS和BS各自都能够加解密,我这边的过程是这样的。。。。[但最后]中文始终是乱码
Java代码

       StringBuffer strbuf = new StringBuffer();
try {
    FileInputStream in = new FileInputStream(file);
    int size = 0;
    byte [] buf = new byte[1024];
    while ((size=in.read(buf)) != -1) {
        strbuf.append(new String(buf,0,size));
    }

} catch (FileNotFoundException e) {
    // TODO Auto-generated catch block
    e.printStackTrace();
} catch (IOException e1) {
    // TODO Auto-generated catch block
    e1.printStackTrace();
}
      return strbuf;



        StringBuffer strbuf = new StringBuffer();
try {
FileInputStream in = new FileInputStream(file);
int size = 0;
byte [] buf = new byte[1024];
while ((size=in.read(buf)) != -1) {
strbuf.append(new String(buf,0,size));
}

} catch (FileNotFoundException e) {
// TODO Auto-generated catch block
e.printStackTrace();
} catch (IOException e1) {
// TODO Auto-generated catch block
e1.printStackTrace();
}
       return strbuf;


Qieqie的答：

以下的代码是错误的：
Java代码
StringBuffer strbuf = new StringBuffer();
...
strbuf.append(new String(buf,0,size));

StringBuffer strbuf = new StringBuffer();
...
strbuf.append(new String(buf,0,size));

第一、
你应该使用ByteArrayOutputStream，将InputStream的字节全部读出来，然后转成byte[]数组，最后在根据你和对方协议规定的字符集合(假设你们规定的是UTF-8，如果没有规定，那么就补充上吧)，将byte[]变成String: String theString = new String(bytes, "UTF-8")。
不加"UTF-8"的new String，将使用Java环境设置的字符集，没有特别设置的情况下也就是操作系统的字符集。这是不可靠的。

第二、
不能使用byte[]+StringBuffer：StringBuffer是针对char操作的(String也是)。读取byte时可能刚好把一个多字节的char分成前后两批加入StringBuffer。这样就破坏了char的完整性了。而如果你使用UTF-8编码的中文，你就会中招，导致乱码(其实是因为你的读取是由于byte失去原有顺序导致的，跟一般的乱码还不一样)
--
在UTF-8编码集中，每个汉字使用 3个字符表示！实践证明：
1、创建一个UTF-8编码的文件：weare.txt
2、写入三个字：“我们是”
3、运行以下代码：
Java代码
public class UTF8 {

    public static void main(String[] args) throws IOException {
        String p = "weare.txt";
        InputStream in = new FileInputStream(p);
        int read = in.read(new byte[1204]);
        System.out.println(read);

    }
}

public class UTF8 {

public static void main(String[] args) throws IOException {
String p = "weare.txt";
InputStream in = new FileInputStream(p);
int read = in.read(new byte[1204]);
System.out.println(read);

}
}

4、你会发现打印出来的是 9 !

所以，byte[]+StringBuffer的使用方式是错误的！

不过可以使用StringBuffer + bufferedReader.readLine()，读出一行行后再加入StringBuffer。
或者第2楼说的stringbuffer+reader.read(char[])的形式（毕竟错误是由于byte[]导致的，而非StringBuffer）

参考资料：

zh.wikipedia.org 写道

UTF-8 使用一至四个字节为每个字符编码。128 个 ASCII 字符（Unicode 范围由 U+0000 至 U+007F）只需一个字节，带有变音符号的拉丁文、希腊文、西里尔字母、亚美尼亚语、希伯来文、阿拉伯文、叙利亚文及马尔代夫语（Unicode 范围由 U+0080 至 U+07FF）需要二个字节，其他基本多文种平面（BMP）中的字符（CJK属于此类-Qieqie注）使用三个字节，其他 Unicode 辅助平面的字符使用四字节编码。