一些高校的bbs由于历史久远,没有适应新的数据结构,请求返回的数据还是xml格式的,而现在常用的返回是json,这是个很头疼的地方,碰到的问题网上很难搜到资料,走了很多弯路。
现在具体讲一下在解析返回xml过程中碰到的问题,希望能有些借鉴:
1.xml编码问题:
对于编码,我也仅仅只是了解。英文网页返回的xml用UTF-8编码满足要求,而如果包含中文的话,用的就是GB2312编码。问题是,iOS自带的sdk中NSXMLParser(对于iOS自带的解析方法,可以百度下,这里不再详述)解析UTF-8没有问题,但是对于GB2312编码,会直接触发parser:parseErrorOccurred:导致解析失败。所以转码是第一个问题,网上有很多GB2312转UTF-8的方法。
2.NSData在转码过程中出数据错误的情况:
针对BBS论坛这类特殊情况,当标题超过某一长度时会自动进行截断,所以这个比较坑,NSData转码不会报错,但是转换完就为nil,完全无从下手,不知道什么问题。开始有的xml请求到了转码之后可以自己解析,但是有的就返回为nil,一直以为是数据请求失败,但是返回的NSData是有数据的。直到无意中搜到cocoachina上的一个帖子,关于NSData转码问题(针对高校BBS回复)。这个帖子的回复给了我方向,修复NSData中正好被截断的位置,具体函数参考网上的一个处理方法(PS:他的封装nsdata类我不太会用,所以自己修改了下,放到自己的类里面去了= =)
+ (NSString *)GB18030String:(NSData *)sender {
NSStringEncoding enc =CFStringConvertEncodingToNSStringEncoding(kCFStringEncodingGB_18030_2000);
NSString *str = [[NSString alloc]initWithData:sender encoding:enc];
if (!str) {
str = [[NSString alloc]initWithData:[self dataByHealingGB18030Stream:sender]encoding:enc];
}
return str;
}
+ (NSData *)dataByHealingGB18030Stream:(NSData *)sender {
NSUInteger length = [sender length];
if (length == 0) {
return sender;
}
static NSString * replacementCharacter = @"?";
NSStringEncoding enc =CFStringConvertEncodingToNSStringEncoding(kCFStringEncodingGB_18030_2000);
NSData *replacementCharacterData = [replacementCharacterdataUsingEncoding:enc];
NSMutableData *resultData = [NSMutableData dataWithCapacity:sender.length];
const Byte *bytes = [sender bytes];
static const NSUInteger bufferMaxSize = 1024;
Byte buffer[bufferMaxSize];
NSUInteger bufferIndex = 0;
NSUInteger byteIndex = 0;
BOOL invalidByte = NO;
#define FlushBuffer() if (bufferIndex > 0) { \
[resultData appendBytes:buffer length:bufferIndex]; \
bufferIndex = 0; \
}
#define CheckBuffer() if ((bufferIndex+5) >= bufferMaxSize) { \
[resultData appendBytes:buffer length:bufferIndex]; \
bufferIndex = 0; \
}
while (byteIndex < length) {
Byte byte = bytes[byteIndex];
//检查第一位
if (byte >= 0 && byte <= (Byte)0x7f) {
//单字节文字
CheckBuffer();
buffer[bufferIndex++] = byte;
} else if (byte >= (Byte)0x81 && byte <= (Byte)0xfe){
//可能是双字节,可能是四字节
if (byteIndex + 1 >= length) {
//这是最后一个字节了,但是这个字节表明后面应该还有1或3个字节,那么这个字节一定是错误字节
FlushBuffer();
return resultData;
}
Byte byte2 = bytes[++byteIndex];
if (byte2 >= (Byte)0x40 && byte <= (Byte)0xfe && byte != (Byte)0x7f) {
//是双字节,并且可能合法
Byte tuple[] = {byte, byte2};
CFStringRef cfstr = CFStringCreateWithBytes(kCFAllocatorDefault, tuple, 2,kCFStringEncodingGB_18030_2000, false);
if (cfstr) {
CFRelease(cfstr);
CheckBuffer();
buffer[bufferIndex++] = byte;
buffer[bufferIndex++] = byte2;
} else {
//这个双字节字符不合法,但byte2可能是下一字符的第一字节
byteIndex -= 1;
invalidByte = YES;
}
} else if (byte2 >= (Byte)0x30 && byte2 <= (Byte)0x39) {
//可能是四字节
if (byteIndex + 2 >= length) {
FlushBuffer();
return resultData;
}
Byte byte3 = bytes[++byteIndex];
if (byte3 >= (Byte)0x81 && byte3 <= (Byte)0xfe) {
// 第三位合法,判断第四位
Byte byte4 = bytes[++byteIndex];
if (byte4 >= (Byte)0x30 && byte4 <= (Byte)0x39) {
//第四位可能合法
Byte tuple[] = {byte, byte2, byte3, byte4};
CFStringRef cfstr = CFStringCreateWithBytes(kCFAllocatorDefault, tuple,4, kCFStringEncodingGB_18030_2000, false);
if (cfstr) {
CFRelease(cfstr);
CheckBuffer();
buffer[bufferIndex++] = byte;
buffer[bufferIndex++] = byte2;
buffer[bufferIndex++] = byte3;
buffer[bufferIndex++] = byte4;
} else {
//这个四字节字符不合法,但是byte2可能是下一个合法字符的第一字节,回退3位
//并且将byte1,byte2用?替代
byteIndex -= 3;
invalidByte = YES;
}
} else {
//第四字节不合法
byteIndex -= 3;
invalidByte = YES;
}
} else {
// 第三字节不合法
byteIndex -= 2;
invalidByte = YES;
}
} else {
// 第二字节不是合法的第二位,但可能是下一个合法的第一位,所以回退一个byte
invalidByte = YES;
byteIndex -= 1;
}
if (invalidByte) {
invalidByte = NO;
FlushBuffer();
[resultData appendData:replacementCharacterData];
}
}
byteIndex++;
}
FlushBuffer();
return resultData;
}
3.关于xml中的特殊字符处理:
如果以为上面两步处理完了解析xml就很顺利了,那就错了。在解析的过程中发现xml解析到中途就会失败,返回的意思大概就是碰到PCDATA invalidchar 27什么的,domain code = 9.这个只能怪我自己基础不好,当时没多想,网上也搜不到错误码。后来无意中发现返回的xml nsstring里面包含
\x
1b。这个我恰好搜到是ASCII码里面的第27个字符,和前面报错对应起来了。就是这个符号除了问题,然后通过正则表达式/[\x00-\x08\x1b\x0b-\x0c\x0e-\x1f\x7f]/这里iOS里面可能要稍微修改下,把“\”改成“\\”。然后问题就解决了,NSXMLParser顺利的解析出xml数据
其实我发现问题的顺序是1-3-2
问题2是后来测试中偶然发现转码后数据为nil的情况
关于xml和编码问题自己基础确实薄弱,在这个问题上费了好大的里,翻了好多帖子,感觉资料也不是很多。所以,在把自己的经验贴出来提供参考,有不对的地方还请高手指正。