用XMLHTTP Post/Get HTML页面时的中文乱码问题

转载 2005年01月03日 10:33:00

以前我曾经贴过一篇用XMLHTTP Post Form 的帖子,那里的代码中我Post E文的Value毫无问题,但是后来发现Post含有中文的表单时会出现乱码,原因当然是UTF-8 和GB2312 之间的转换问题了!TNND,打倒GB2312!大家都用UTF8多好。

用XMLHTTP Post Form时的表单乱码有两方面的原因——Post表单数据时中文乱码;服务器Response被XMLHTTP不正确编码引起的乱码。换句话说,本文主要解决两个问题——怎样正确Post中文内容&怎样正确显示得到的中文内容。

Part I Post中文内容

先看看E文的表单是怎么提交的:

<SCRIPT language="javascript">
strA = "submit1=Submit&text1=scsdfsd";
var oReq = new ActiveXObject("MSXML2.XMLHTTP");
oReq.open("POST","http://ServerName/VDir/TstResult.asp",false);
oReq.setRequestHeader("Content-Length",strA.length);  
oReq.setRequestHeader("CONTENT-TYPE","application/x-www-form-urlencoded");
oReq.send(strA);
</ScRIPT>

如果把strA = "submit1=Submit&text1=scsdfsd";换成:
strA = "submit1=Submit&text1=中文";

你会发现提交上去的东东根本不对,ASP中Request.Form("Text1")根本取不到值。俺用Request.BinaryRead把一个HTML Form中的Post内容写出来看了看,才发现问题——Form提交时也要编码的,编码后的中文是类似于%??%??的转义字符,比如“中文”就被编码为:%D6%D0%CE%C4。呵呵,也怪俺笨,人家CONTENT-TYPE里明明写的清清楚楚——application/x-www-form-urlencoded,urlencoded嘛当然就是这个样子了。既然这样,那我们也知道该怎么办了——自己做转换,代码见下:

<SCRIPT language="VBScript">
Function URLEncoding(vstrIn)
    strReturn = ""
    For i = 1 To Len(vstrIn)
        ThisChr = Mid(vStrIn,i,1)
        If Abs(Asc(ThisChr)) < &HFF Then
            strReturn = strReturn & ThisChr
        Else
            innerCode = Asc(ThisChr)
            If innerCode < 0 Then
                innerCode = innerCode + &H10000
            End If
            Hight8 = (innerCode  And &HFF00)/ &HFF
            Low8 = innerCode And &HFF
            strReturn = strReturn & "%" & Hex(Hight8) &  "%" & Hex(Low8)
        End If
    Next
    URLEncoding = strReturn
End Function


strA = URLEncoding("submit1=Submit&text1=中文")
oReq = CreateObject("MSXML2.XMLHTTP")
oReq.open "POST","http://ServerName/VDir/TstResult.asp",false
oReq.setRequestHeader "Content-Length",Len(strA)
oReq.setRequestHeader "CONTENT-TYPE","application/x-www-form-urlencoded"
oReq.send strA
</ScRIPT>

(在这里俺把前面的javascript的代码改成了VBScript,不是吃饱了撑的没事干,原因见后)

Part II.正确显示得到的中文内容

OK,如果你在Server端把Form的内容写到数据库/文件的话,你在那里看到的中文毫无问题,但是,假如你想看看Server的Response——问题来了:如果Response的结果不是XML,XMLHTTP.responseXML里当然是不会有东东的,那就用responseText好了,在代码的最后加一句:

alert(oReq.responseText)
看看俺们辛勤劳动的结果  :P

但是但是.....怎么所有的中文全变成了方格? (我打不出来,有兴趣自己去试,也不用Post,Get一个含有中文的网页就可以发现了。)

原因很简单:XMLHTTP得到Response时假定Response是UTF8编码的,如果Response是XML,那还可以通过encoding来指定编码,但HTML就不行了。(见鬼的GB2312,再次打倒!)所以它把含GB2312编码的HTML当成UTF8格式,不出错才有鬼!

不过好在还有补救的办法:XMLHTTP的responseBody 属性里包含的可是未解码的Resonse——"a raw undecoded bytes as received directly from the server" :),唯一的问题是,responseBody返回的是一个unsigned bytes数组,我们怎么去访问它,怎么把它转换成BSTR?

这就是为什么我在上面把代码改成VBScript的原因——VBScript Can do it,but javascript Cannot!

代码见下:
<SCRIPT language="VBScript">
Function URLEncoding(vstrIn)
    strReturn = ""
    For i = 1 To Len(vstrIn)
        ThisChr = Mid(vStrIn,i,1)
        If Abs(Asc(ThisChr)) < &HFF Then
            strReturn = strReturn & ThisChr
        Else
            innerCode = Asc(ThisChr)
            If innerCode < 0 Then
                innerCode = innerCode + &H10000
            End If
            Hight8 = (innerCode  And &HFF00)/ &HFF
            Low8 = innerCode And &HFF
            strReturn = strReturn & "%" & Hex(Hight8) &  "%" & Hex(Low8)
        End If
    Next
    URLEncoding = strReturn
End Function

Function bytes2BSTR(vIn)
    strReturn = ""
    For i = 1 To LenB(vIn)
        ThisCharCode = AscB(MidB(vIn,i,1))
        If ThisCharCode < &H80 Then
            strReturn = strReturn & Chr(ThisCharCode)
        Else
            NextCharCode = AscB(MidB(vIn,i+1,1))
            strReturn = strReturn & Chr(CLng(ThisCharCode) * &H100 + CInt(NextCharCode))
            i = i + 1
        End If
    Next
    bytes2BSTR = strReturn
End Function


strA = URLEncoding("submit1=Submit&text1=中文")
oReq = CreateObject("MSXML2.XMLHTTP")
oReq.open "POST","http://ServerName/VDir/TstResult.asp",false
oReq.setRequestHeader "Content-Length",Len(strA)
oReq.setRequestHeader "CONTENT-TYPE","application/x-www-form-urlencoded"
oReq.send strA
alert bytes2BSTR(oReq.responseBody)
</ScRIPT>

嘿嘿,是不是很简单啊,用这个再试试看?一切OK!

(顺便说说byte(),这个东东在VBScript里的表现只能用妖来形容——对它调用VarType 返回8209——vbArray + vbByte,用LBound、UBound能拿到数组的上界下界,但是就是不能用name(i)的形式访问,搞得我以为在Script里根本没法处理这种类型,在bytes2BSTR函数里可以看到我是把它当成String来处理的——LenB/MidB什么的,发现这点纯属意外——我开始往这个函数里传的是XMLHTTP.responseText,想一个Byte一个Byte地看看里面到底有点什么,后来一时性起把responseText改成responseBody,结果就中奖了,哈哈)

最后的废话:
1、以上代码在MSXML Parser 3 Release+VBScript 5.5环境下通过。那位兄弟有早一点版本的Script可以帮我试试看能不能成。
2、一直以为javascript vs VBScript应该是javascript略好,所以有时候想彻底抛弃VBScript,ASP Server/Client统统用javascript,看来未必是个好主意。

get post 区别详解及引发中文乱码问题

1、Get是用来从服务器上获得数据,而Post是用来向服务器上传递数据。  2、Get将表单中数据的按照variable=value的形式,添加到action所指向的URL后面,并且两者使用“?”连...
  • cl1771066100
  • cl1771066100
  • 2013年12月18日 16:53
  • 1487

ssm框架学习---开发中遇到的乱码问题

1。在浏览器访问时遇到乱码的问题 遇到这种问题,一般都是字符编码的问题,将编码设置为一致的即可 2。获取页面表单参数问题 (1)对于数据字段比较少的情况 这种情况下,考虑字段比较少,只需要在对应的co...
  • whu_zcj
  • whu_zcj
  • 2016年12月07日 14:26
  • 2988

关于HttpClient模拟浏览器请求的参数乱码问题解决方案

利用HttpClient模拟浏览器行为获取网页内容时,当参数中有中文,在服务器端解析出的参数值中的中文都是“?”,这里就给你完美的解决方案...
  • xiaojimanman
  • xiaojimanman
  • 2015年03月18日 11:04
  • 4437

利用Filter全局中文过滤(get和post请求中文乱码问题)

  • 2016年10月23日 15:30
  • 13KB
  • 下载

get/post时中文乱码问题的解决办法

form有2中方法把数据提交给服务器,get和post,分别说下吧。 (一)get提交   1.首先说下客户端(浏览器)的form表单用get方法是如何将数据编码后提交给服务器端的吧。   ...
  • lihongjian944043440
  • lihongjian944043440
  • 2011年11月23日 14:39
  • 704

GET/POST时中文乱码问题解决方法

get/post时中文乱码问题的解决办法 常有的方法,get请求用在tomcat的编码改为utf-8 即可 post 过滤...
  • ArithmeticException
  • ArithmeticException
  • 2017年05月06日 18:53
  • 381

get/post时中文乱码问题的解决办法

get/post时中文乱码问题的解决办法 2007-11-14 11:46 9082人阅读 评论(0) 收藏 举报 jspurlservlettomcat浏览器服务器 1、文章1 最近遇到一个...
  • u012188794
  • u012188794
  • 2014年12月03日 13:04
  • 293

get/post时中文乱码问题的解决办法

1、文章1 最近遇到一个问题:用get方法传递中文有问题,用post没有问题。 问题简单的描述是这样的: jsp?userGroupName=">aa 这里userGroupName是中文 在use...
  • WQ453237747
  • WQ453237747
  • 2013年12月06日 10:15
  • 376

HTML页面为什么设置了UTF-8仍然中文乱码

如题,其实问题很简单,在用EditPlus写html页面的时候,发现设置为UTF-8的时候仍然出现了乱码, 这是一个很奇怪的问题,而且我完全考虑了浏览器的解析问题,将title放在了了meta标签之...
  • wuha0
  • wuha0
  • 2014年11月18日 09:31
  • 2564

get/post时中文乱码问题的解决办法

get/post时中文乱码问题的解决办法 2007-11-14 11:46 5474人阅读 评论(0) 收藏 举报 jspurlservlettomcat浏览器服务器 1、...
  • ccecwg
  • ccecwg
  • 2014年05月06日 12:00
  • 320
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:用XMLHTTP Post/Get HTML页面时的中文乱码问题
举报原因:
原因补充:

(最多只允许输入30个字)