字符集经验之谈

最新推荐文章于 2023-04-07 18:02:51 发布

hulefei29

最新推荐文章于 2023-04-07 18:02:51 发布

阅读量1k

点赞数

分类专栏： Web技术 JAVA 文章标签： string 浏览器服务器 python web 编程

本文链接：https://blog.csdn.net/hulefei29/article/details/2441804

版权

JAVA 同时被 2 个专栏收录

46 篇文章 0 订阅

订阅专栏

Web技术

31 篇文章 0 订阅

订阅专栏

也许大家已经看惯了书上说的GBK是对GB2312的扩充，就是说，GB2312字符集中的所有字符都可以在GBK 字符集中找到。可是最近在一次调试Python爬虫的过程中就发现了一些字符的不同。同时大家也应该注意一些网页的默认编码字符集了。

当时正在分析的一个网页的默认编码字符集是GB2312，其中含有一个符号"·"，这个常作为项目符号。在使用 GB2312进行解码时，得到的unicode字符是/u30fb，然后使用系统默认编码GBK进行打印时就提示了编码错误。即字符串"/xa1/ xa4"无法使用GB2312解码为unicode字符后再编码为GBK编码显示。(by gashero)实际测试中只要不会交换编码，那么使用同一种编码进行编码和解码就不会出问题。

后来查找得知，字符/u30fb是一种特殊的unicode字符，是一种不允许显示的字符，所以在GBK编码中就没有它的位置。而字符串"/xa1/xa4"使用GBK解码时得到的是/u00b7。

至此得知，虽然网页的默认编码是GB2312，但是实际上使用的是GBK编码，也使用了一些在GB2312和GBK之间不同的编码字符。所以也就导致了这个错误。

建议以后编程序的时候，遇到默认编码为GB2312的大可以直接使用GBK进行解码为unicode字符串。

----------------------------------------------------------------------------------------------------------------------------

以上是一份转载，它只说明了问题的一方面，以下以对字符集的理解，全面解析一下字符的问题，与大家分享一下！

1.在乱码显示为？

其主要原因是GBK——>Unicode——>ISO-8859-1,这个问题在java中十分容易发生。

2.在Servlet/JSP中发生乱码

要了解Servlet/JSP发生乱码的原因，就要先了解一下Web请求中响应过程中，中文字符编码的转换过程，如下：

（1）浏览器发送GB2312编码的中文数据

（2） Web容器内容使用ISO-8859-1编码将其转换为Unidcode，相当于new Stirng(buf,”ISO-8859 -1” )

（3） Web容器调用request.getParamter得到String，

（4）（a）如果没有知道输出字符集，则默认为ISO-8859-1输出，在浏览器上正常显示中文

（b）如果特意指定输出字符集为GB2312则出错，显示？？，主要由于没有意识到第2步的存在

3中文乱码的解决方案

（1）在post方法中提交中文字符

为了避免容器以ISO-8859-1编码，设置request.setCharacterEncoding(“GBK”);在向浏览器方送数据之前，调用response.setContentType(“text/html;charset=GBK”)或response.setCharacterEncoding(“GBK”);，以指定输出内容的编码方式是GBK

（2）以GET方法提交的表单数据中有中文

这是在服务器端调用request.setCharacterEncoding(“GBK”);没有作用，需要

String name = request.getParameter(“name”);

name = new String(name.getBytes(“ISO-8859 -1” ),”GBK”);

注意：在服务器端遇到中文需要编码解码的话建议是使用GBK，不建议使用gb2312，（上文的建议相同，而且GBK对gb2312完全，）因为gb2312在编译服务器端转换是会出现编码与解码不一致的错误

hulefei29

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
字符集经验之谈

也许大家已经看惯了书上说的GBK是对GB2312的扩充，就是说，GB2312字符集中的所有字符都可以在GBK 字符集中找到。可是最近在一次调试Python爬虫的过程中就发现了一些字符的不同。同时大家也应该注意一些网页的默认编码字符集了。当时正在分析的一个网页的默认编码字符集是GB2312，其中含有一个符号"·"，这个常作为项目符号。在使用 GB2312进行解码时，得到的unicode字符是/u
复制链接

扫一扫

专栏目录