这段时间一直在练习.net抓取网页数据,抓的多了就会发现,好多网页都需要输入相关内容才能获取到自己想要的东西。那么问题来了,譬如下图:
地址栏中的用红色框标出的字符串就是汉字“计算机”经过gb2312编码转换后得到的。
那么究竟怎么样才能把汉字转换为gb2312编码格式的呢。在asp.net(C#)下很简单,看下方代码:
string text ="标准";
text = HttpUtility.UrlEncode(text);
//保险点可以:
text = HttpUtility.UrlEncode(text, System.Text.Encoding.GetEncoding(936));
经过这两三句代码就可以轻松搞定。遗憾的是,小编当初为了找到这个答案,也是绞尽脑汁啊。
最后,还发现了一个测试平台,在这里,我们可以很清楚的知道gb2312编码和utf-8编码的不一样之处。
http://tool.phpshuo.com/UrlEncode.html,尽情转换吧。