使用XPath解析HTML获取网页内容


======================================================
注:本文源代码点此下载
======================================================

有的时候,我们开发的应用需要抓取网页的内容借为己用,如qq网站的天气信息新闻等,和google等搜索爬虫的机制不同之处在于抓取目标的页面对开发人员而言是已知的。我们有理由避免过多的使用正则表达式的繁冗分析过程,如果能够在获取目标网页的html之后通过dom来解析html将是一件非常愉快的事情。这里会遇到两个问题,dom操作只能在客户端通过javascript或vbscript等脚本语言进行,加上html自身不是非强格式的,不能使用类似xsl对xml解析的方式进行操作。不过既然写这篇blog,就一定有了解决的办法j。

非常感谢microsoft的xml大师chris lovett为我们带来的sgmlreader这个开源的项目。我们知道,xml和html都是sgml的子集。通过sgmlreader,能够将html转换生成格式规范的html(well-formed html,虽然没有这个称呼,但这里暂且这么说),从而可以使用xml的xpath语法读取网页的数据了。那么在.net framework下,我们遇到的问题变得如此轻松。

简单写了一个示例程序,用来抓取qq网站的天气信息,通过更改城市名称和xpath获得网页内容。

代码:下载

ps:除了sgmlreader之外,还有simon mourier.net html agility pack也具有类似的功能。


======================================================
在最后,我邀请大家参加新浪APP,就是新浪免费送大家的一个空间,支持PHP+MySql,免费二级域名,免费域名绑定 这个是我邀请的地址,您通过这个链接注册即为我的好友,并获赠云豆500个,价值5元哦!短网址是http://t.cn/SXOiLh我创建的小站每天访客已经达到2000+了,每天挂广告赚50+元哦,呵呵,饭钱不愁了,\(^o^)/
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值