html页面写明了是utf-8编码格式HTML页面的 Content-Type 只是告诉浏览器,我的编码是 UTF-8 的,但事实上是不是 UT F-8 的,就不一定了。
网页的确是按utf8编码发送过来的字节流 byte[],但是JAVA的String是保存为Unicode的 ,于是中间有一个编码转换,也不知道为什么这一步系统一定要按8859_1->Unicode来转换 ,结果就是JAVA误把utf8的编码字节流当做8859_1的编码字节流来转成了Unicode,于是我 们就把Unicode转成8859_1得到正确的字节流,再按utf8->Unicode方式得到正确的String
Unicode 无论是英文字母还是中文字都使用2字节表示,因此方便处理,被选作JAVA String 编码 utf8 使用1字节表示英文字母,3字节表示中文字符
栗子:
search = new String(search.getBytes("8859_1"), "utf8");