网络传输中的中文乱码问题

最新推荐文章于 2024-10-05 14:04:13 发布

少年无形

最新推荐文章于 2024-10-05 14:04:13 发布

阅读量7.9k

点赞数

文章标签：乱码

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/dl18215164175/article/details/72512131

版权

一、解决乱码问题，要先了解一些基础概念：

1、字符集：在计算机底层中数据存储的都是二进制数据，要想获取真正有意义的字符，就必须让二进制数据与每一个字符对应起来，这种对应关系就形成了一张编码表。

常用字符集： iso-8859-1 拉丁码表 latin,表示西欧语言，使用一个字节即8位表示数据

GB2312 简体中文码表。包含6000-7000中文和符号。用两个字节表示。两个字节都是开头为1，都为负数。

GBK 目前最常用的中文码表，2万的中文和符号。用两个字节表示数据。

unicode 国际标准码，无论是什么文字，都用两个字节存储

UTF-8 基于unicode,一个字节就可以存储数据，不用两个字节存储，而且这个码表更加的标准化，在每一个字节头加入了编码信息。

（Linux 默认使用的iso-88059-1，win32默认使用的GB2312）

2、编码：将字符转换成在字符集中对应的编码

解码：在字符集中查找出编码对应的字符

二、中文在网络中的传输过程

1、以JAVA为例，eclipse默认使用UTF-8编码集，TOMCAT服务器默认使用iso-8859-1编码集，浏览器一般默认使用GBK编码集。

程序与服务器之间以字符传输，服务器与浏览器之间以字节传输。

2、中文传输过程：浏览器中的中文字符----->进行编码----->服务器----->进行解码----->程序；

程序中的中文字符----->服务器----->进行解码----->浏览器----->编码进行显示

3、乱码产生原因以解决方式：

（1）、浏览器中的中文字符以GBK进行编码，以字节流传输到服务器，服务器再以iso-8859-1进行解码，以字符的形式传输给程序。

因为iso-8859-1编码集不支持中文字符，所有解码后的字符都是西欧字符，把这些字符传输给程序就产生了乱码；

针对这个原因，只要把服务器的编码集设置为utf-8即可:

request.setCharacterEncoding("utf-8") ；

但这种方法只能用于POST请求方式，因为设置只会作用于请求体中的内容，如果是GET请求方式，可用先解码再编码的方式：

byte[] buffer = request.getParameter("word").getBytes("ISO-8859-1"); //进行编码

String newStr = new String(buffer,"UTF-8"); //进行解码

（2）、程序中的中文字符原样传输到服务器，服务器要先对中文字符进行编码再传输给浏览器，但因为iso-8859-1编码集不支持中文字符，所以在字符集中查找不到对应的编码，编码后就变成了问号，传输给了浏览器并显示；

针对这种情况，要进行两次设置：

response.setCharacterEncoding("UTF-8"); //将服务器编码集设置为UTF-8
response.setContentType("text/html;charset=UTF-8"); //将浏览器编码集设置为UTF-8

实际上第二行设置已经包含了对服务器的设置，所以通常只要写第二句代码即可

关注

0
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。