html页面写明了是utf-8编码格式HTML页面的 Content-Type 只是告诉浏览器,我的编码是 UTF-8 的,但事实上是不是 UT F-8 的,就不一定了。
网页的确是按utf8编码发送过来的字节流 byte[],但是JAVA的String是保存为Unicode的 ,于是中间有一个编码转换,也不知道为什么这一步系统一定要按8859_1->Unicode来转换 ,结果就是JAVA误把utf8的编码字节流当做8859_1的编码字节流来转成了Unicode,于是我 们就把Unicode转成8859_1得到正确的字节流,再按utf8->Unicode方式得到正确的String
Unicode 无论是英文字母还是中文字都使用2字节表示,因此方便处理,被选作JAVA String 编码 utf8 使用1字节表示英文字母,3字节表示中文字符
栗子:
search = new String(search.getBytes("8859_1"), "utf8");
本文探讨了HTML页面中的UTF-8编码及其在Java环境中处理时遇到的问题。重点介绍了如何通过将字符串从ISO-8859-1转换到UTF-8来正确解析中文字符,确保网页内容能够准确显示。
1万+

被折叠的 条评论
为什么被折叠?



