iOS开发之html解析

from: http://blog.sina.com.cn/s/blog_833996210100yyt4.html

使用XPath解析html

可以从此处 https://github.com/topfunky/hpple下载工程,将TFHpple.h,TFHpple.m,TFHppleElement.h,TFHppleElement.m,XPathQuery.h,XPathQuery.m加到自己的项目中,在Frameworks中导入libxml2.x


在项目中找到Other Linker Flags,加入-libxml2


在项目中找到Header Search Paths,加入/usr/include/libxml2
代码如下:

NSString *urlString = nil;
 
urlString = @"http://www.xiyou.edu.cn/new/lm.jsp?urltype=tree.TreeTempUrl&wbtreeid=724";
 
NSData *htmlData = [[NSData alloc] initWithContentsOfURL:[NSURL URLWithString:urlString]];
 
NSData *toHtmlData = [self toUTF8:htmlData];
 
TFHpple *xpathParser = [[TFHpple alloc] initWithHTMLData:toHtmlData];
 
 
NSArray *aArray = [xpathParser searchWithXPathQuery:@"//a"];
 
if ([span count] > 0) {
            
            for (int i = 87; i < 102; i++) {
                            //从<a>的第82个开始取值,共获取15个值
                TFHppleElement *aElement = [aArray objectAtIndex:i];    
                NSArray *aArr = [aElement children];
                TFHppleElement *aEle = [aArr objectAtIndex:0];
                NSArray *aChild = [aEle children];
                TFHppleElement *aChildEle = [aChild objectAtIndex:0];
                NSArray *aChildren = [aChildEle children];
                NSString *aStr = [[aChildren objectAtIndex:0] content];
                NSLog(@"aStr:%@",aStr);
                NSDictionary *aAttributeDict = [aElement attributes];
                NSLog(@"aAttributeDict:%@",aAttributeDict);
                
                            //获取a中的属性值
                NSString *hrefStr = [NSString stringWithFormat:@"http://www.xiyou.edu.cn%@",[aAttributeDict objectForKey:@"href"]];
                NSLog(@"hrefStr:%@",hrefStr);
                
                [currentNewsArr addObject:aStr];
                [currentHrefArr addObject:hrefStr];
                
            }
[htmlData release];
[xpathParser release];
}


//如果解析的网页不是utf8编码,如gbk编码,可以先将其转换为utf8编码再对其进行解析

 

-(NSData *) toUTF8:(NSData *)sourceData {  
    CFStringRef gbkStr = CFStringCreateWithBytes(NULL, [sourceData bytes], [sourceData length],kCFStringEncodingGB_18030_2000, false);  
    
    if (gbkStr == NULL) {  
        return nil;  
    } else {  
        NSString *gbkString = (NSString *)gbkStr; 
        //根据网页源代码中编码方式进行修改,此处为从gbk转换为utf8
             NSString *utf8_String = [gbkString stringByReplacingOccurrencesOfString:@"META http-equiv="Content-Type" content="text/html; charset=GBK""  
                                                                      withString:@"META http-equiv="Content-Type" content="text/html; charset=UTF-8""];  
        
        return [utf8_String dataUsingEncoding:NSUTF8StringEncoding];                             
    }                                     
}



  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值