【iOS解决方案】网络请求返回GB2312格式的xml数据转成UTF-8后为空（适用于论坛bbs）

最新推荐文章于 2024-07-05 17:56:50 发布

NiklausC

最新推荐文章于 2024-07-05 17:56:50 发布

阅读量1.5k

点赞数

文章标签： iOS xml NSData 编码 GB2312

本文链接：https://blog.csdn.net/u013883974/article/details/46224889

版权

一些高校的bbs由于历史久远，没有适应新的数据结构，请求返回的数据还是xml格式的，而现在常用的返回是json，这是个很头疼的地方，碰到的问题网上很难搜到资料，走了很多弯路。

现在具体讲一下在解析返回xml过程中碰到的问题，希望能有些借鉴：

1.xml编码问题：

对于编码，我也仅仅只是了解。英文网页返回的xml用UTF-8编码满足要求，而如果包含中文的话，用的就是GB2312编码。问题是，iOS自带的sdk中NSXMLParser（对于iOS自带的解析方法，可以百度下，这里不再详述）解析UTF-8没有问题，但是对于GB2312编码，会直接触发parser:parseErrorOccurred:导致解析失败。所以转码是第一个问题，网上有很多GB2312转UTF-8的方法。

2.NSData在转码过程中出数据错误的情况：

针对BBS论坛这类特殊情况，当标题超过某一长度时会自动进行截断，所以这个比较坑，NSData转码不会报错，但是转换完就为nil，完全无从下手，不知道什么问题。开始有的xml请求到了转码之后可以自己解析，但是有的就返回为nil，一直以为是数据请求失败，但是返回的NSData是有数据的。直到无意中搜到cocoachina上的一个帖子，关于NSData转码问题（针对高校BBS回复）。这个帖子的回复给了我方向，修复NSData中正好被截断的位置，具体函数参考网上的一个处理方法（PS:他的封装nsdata类我不太会用，所以自己修改了下，放到自己的类里面去了= =）

+ (NSString *)GB18030String:(NSData *)sender {

    NSStringEncoding enc =CFStringConvertEncodingToNSStringEncoding(kCFStringEncodingGB_18030_2000);

    NSString *str = [[NSString alloc]initWithData:sender encoding:enc];

    if (!str) {

        str = [[NSString alloc]initWithData:[self dataByHealingGB18030Stream:sender]encoding:enc];

    }

    return str;

}



+ (NSData *)dataByHealingGB18030Stream:(NSData *)sender {

    NSUInteger length = [sender length];

    if (length == 0) {

        return sender;

    }

    

    static NSString * replacementCharacter = @"?";

    NSStringEncoding enc =CFStringConvertEncodingToNSStringEncoding(kCFStringEncodingGB_18030_2000);

    NSData *replacementCharacterData = [replacementCharacterdataUsingEncoding:enc];

    

    NSMutableData *resultData = [NSMutableData dataWithCapacity:sender.length];

    

    const Byte *bytes = [sender bytes];

    

    static const NSUInteger bufferMaxSize = 1024;

    Byte buffer[bufferMaxSize];

    NSUInteger bufferIndex = 0;

    

    NSUInteger byteIndex = 0;

    BOOL invalidByte = NO;

    

    

#define FlushBuffer() if (bufferIndex > 0) { \

[resultData appendBytes:buffer length:bufferIndex]; \

bufferIndex = 0; \

}

#define CheckBuffer() if ((bufferIndex+5) >= bufferMaxSize) { \

[resultData appendBytes:buffer length:bufferIndex]; \

bufferIndex = 0; \

}

    

    

    while (byteIndex < length) {

        Byte byte = bytes[byteIndex];

        

        //检查第一位

        if (byte >= 0 && byte <= (Byte)0x7f) {

            //单字节文字

            CheckBuffer();

            buffer[bufferIndex++] = byte;

        } else if (byte >= (Byte)0x81 && byte <= (Byte)0xfe){

            //可能是双字节，可能是四字节

            if (byteIndex + 1 >= length) {

                //这是最后一个字节了，但是这个字节表明后面应该还有1或3个字节，那么这个字节一定是错误字节

                FlushBuffer();

                return resultData;

            }

            

            Byte byte2 = bytes[++byteIndex];

            if (byte2 >= (Byte)0x40 && byte <= (Byte)0xfe && byte != (Byte)0x7f) {

                //是双字节，并且可能合法

                Byte tuple[] = {byte, byte2};

                CFStringRef cfstr = CFStringCreateWithBytes(kCFAllocatorDefault, tuple, 2,kCFStringEncodingGB_18030_2000, false);

                if (cfstr) {

                    CFRelease(cfstr);

                    CheckBuffer();

                    buffer[bufferIndex++] = byte;

                    buffer[bufferIndex++] = byte2;

                } else {

                    //这个双字节字符不合法，但byte2可能是下一字符的第一字节

                    byteIndex -= 1;

                    invalidByte = YES;

                }

            } else if (byte2 >= (Byte)0x30 && byte2 <= (Byte)0x39) {

                //可能是四字节

                if (byteIndex + 2 >= length) {

                    FlushBuffer();

                    return resultData;

                }

                

                Byte byte3 = bytes[++byteIndex];

                

                if (byte3 >= (Byte)0x81 && byte3 <= (Byte)0xfe) {

                    // 第三位合法，判断第四位

                    

                    Byte byte4 = bytes[++byteIndex];

                    

                    if (byte4 >= (Byte)0x30 && byte4 <= (Byte)0x39) {

                        //第四位可能合法

                        Byte tuple[] = {byte, byte2, byte3, byte4};

                        CFStringRef cfstr = CFStringCreateWithBytes(kCFAllocatorDefault, tuple,4, kCFStringEncodingGB_18030_2000, false);

                        if (cfstr) {

                            CFRelease(cfstr);

                            CheckBuffer();

                            buffer[bufferIndex++] = byte;

                            buffer[bufferIndex++] = byte2;

                            buffer[bufferIndex++] = byte3;

                            buffer[bufferIndex++] = byte4;

                        } else {

                            //这个四字节字符不合法，但是byte2可能是下一个合法字符的第一字节，回退3位

                            //并且将byte1,byte2用?替代

                            byteIndex -= 3;

                            invalidByte = YES;

                        }

                    } else {

                        //第四字节不合法

                        byteIndex -= 3;

                        invalidByte = YES;

                    }

                } else {

                    // 第三字节不合法

                    byteIndex -= 2;

                    invalidByte = YES;

                }

            } else {

                // 第二字节不是合法的第二位，但可能是下一个合法的第一位，所以回退一个byte

                invalidByte = YES;

                byteIndex -= 1;

            }

            

            if (invalidByte) {

                invalidByte = NO;

                FlushBuffer();

                [resultData appendData:replacementCharacterData];

            }

        }

        byteIndex++;

    }

    FlushBuffer();

    return resultData;

}

3.关于xml中的特殊字符处理：

如果以为上面两步处理完了解析xml就很顺利了，那就错了。在解析的过程中发现xml解析到中途就会失败，返回的意思大概就是碰到PCDATA invalidchar 27什么的，domain code = 9.这个只能怪我自己基础不好，当时没多想，网上也搜不到错误码。后来无意中发现返回的xml nsstring里面包含 \x 1b。这个我恰好搜到是ASCII码里面的第27个字符，和前面报错对应起来了。就是这个符号除了问题，然后通过正则表达式/[\x00-\x08\x1b\x0b-\x0c\x0e-\x1f\x7f]/这里iOS里面可能要稍微修改下，把“\”改成“\\”。然后问题就解决了，NSXMLParser顺利的解析出xml数据

其实我发现问题的顺序是1-3-2

问题2是后来测试中偶然发现转码后数据为nil的情况

关于xml和编码问题自己基础确实薄弱，在这个问题上费了好大的里，翻了好多帖子，感觉资料也不是很多。所以，在把自己的经验贴出来提供参考，有不对的地方还请高手指正。