c 传递流java 生僻字_关于C#(生僻字、繁体字)和Java的URL转码GBK后结果不一样的问题解决...

本文描述了在C#和Java中使用GBK编码URL时遇到的生僻字乱码问题。通过对比转码结果,发现C#的部分汉字转码不正确,只有三个字节码。解决方案是检查并转换C#转码后长度小于4的字符,将其最后一个字节转换为16进制。问题已解决,但对于非GBK字符的转换,如左括号"(",Java会转码为"%28",这个问题还需要进一步研究。
摘要由CSDN通过智能技术生成

业务背景:

服务端是用Java写的,客户端的是使用C#写的,他们交互以客户端以http协议方式请求服务端,http请求方式要求URL转码为GBK。但是后来发现,服务端收到客户端提交的GBK字符,偶尔会有乱码。于是将同一个字符串分别用URL转换GBK,然后发现只有一点点不一样。

示例如下:

字符串:赟俶鎮臨釵阁紅昇號瀍業區號鋕發廠劉東區灣業區實業蘭創黃鐰甪恆

C#转码结果:

%daS%82m%e6%82%c5R%e2O%b8%f3%bct%95N%cc%96%9ee%98I%85%5e%cc%96%e4k%b0l%8fS%84%a2%96%7c%85%5e%9e%b3%98I%85%5e%8c%8d%98I%ccm%84%93%fcS%e8A%aef%90a

Java转码结果:

%DA%53%82%6D%E6%82%C5%52%E2%4F%B8%F3%BC%74%95%4E%CC%96%9E%65%98%49%85%5E%CC%96%E4%6B%B0%6C%8F%53%84%A2%96%7C%85%5E%9E%B3%98%49%85%5E%8C%8D%98%49%CC%6D%84%93%FC%53%E8%41%AE%66%90%61

对比结果截图:

20181002021859801307.png

找了很久的原因都没有发现时什么问题,最后查了一下GBK字符的

范围

发现JAVA转出来是正确的,C#转出来是错误的。每个汉子字符转出GBK应该都睡四个字节码,C#中有些字转出来只有三个字符(当然每两个字符会以%拼接),盯着C#转出来的字节码和GBK进行对比,发现C#中最后一个字母有些是大于F的,看到GBK字符集中是没有最大就到F不可能有什么NMSWZ等这些字母。猜测三个字母中应该最后一个字母是需要转出16进制的。然会就试着转了一下,果然和Java的一样的。

以下是C#的代码:

335b83df261c422459d4afc29ba290e5.png

d1b641f023dd079c9e4a800b96607d9d.gif

1 public static voidConvertURLGBKEnCode()2 {3 string str2 = "赟俶鎮臨釵阁紅昇號瀍業區號鋕發廠劉東區灣業區實業蘭創黃鐰甪恆";4

5 string str = string.Empty;6 string urlEnCodeStr = string.Empty;7 Regex reg = new Regex(@"[\u4e00-\u9fa5]");//正则表达式

8 StringBuilder sb1 = newStringBuilder();9 for (int i = 0; i <= str2.Length - 1; i++)10 {11 string tempStr =str2[i].ToString();12 urlEnCodeStr = System.Web.HttpUtility.UrlEncode(tempStr, Encoding.GetEncoding("GBK"));13

14 //如果是汉子的话,将URL编码过后再进行16进制转换

15 if(reg.IsMatch(tempStr))16 {17 //判断转码过后的字符,如果只有4位的话,代表最后一个字符需要转换成16进制行拼接

18 if (urlEnCodeStr.Length <= 4)19 {20 StringBuilder sb = newStringBuilder();21 string firstStr = urlEnCodeStr.Substring(0, 3);22 string LastStr = urlEnCodeStr.Substring(3, 1);23 sb.Append(firstStr + "%");24 byte[] targetData = Encoding.GetEncoding("GBK").GetBytes(LastStr);25 for (int j = 0; j < targetData.Length; j++)26 {27 sb.Append(targetData[j].ToString("x2"));28 }29 sb1.Append(sb.ToString());30 }31 else

32 {33 sb1.Append(urlEnCodeStr);34 }35 }36 else

37 {38 sb1.Append(urlEnCodeStr);39 }40 }41

42 Console.WriteLine(sb1.ToString());43

44 Console.ReadLine();45 }View Code

对于汉字中的生僻字和繁体字问题已经解决了,但是刚刚有跑一下特殊符号又郁闷了。

将上面C#的代码 :if (reg.IsMatch(tempStr))  改为 if (urlEnCodeStr.Length > 1)

对于GBK中包含的特殊字符都是可以顺利转换的,但是,不是GBK字符符号的转换就没法确认了。

如:符号:“-”

C#转换结果:“-”;   Java:“-”

字符:"("

C# 转换结果:

"(",而Java跑出来的结果却是"%28",关于这个左括号我查过了,是不属于GBK中的字符,应该也不算特殊字符,应该是直接显示的,像字母和数字以及"-"等字符一样,但就是不知道为什么,Java会转换成"%28"。

关于这个不是GBK的字符,进行转换GBK的问题还有待研究。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值