使用XPath解析HTML获取网页内容

最新推荐文章于 2021-04-08 20:06:03 发布

weixin_30945039

最新推荐文章于 2021-04-08 20:06:03 发布

阅读量224

点赞数

原文链接：http://www.cnblogs.com/Microtoby/archive/2005/02/06/102649.html

版权

有的时候，我们开发的应用需要抓取网页的内容借为己用，如QQ网站的天气信息和新闻等，和Google等搜索爬虫的机制不同之处在于抓取目标的页面对开发人员而言是已知的。我们有理由避免过多的使用正则表达式的繁冗分析过程，如果能够在获取目标网页的HTML之后通过DOM来解析HTML将是一件非常愉快的事情。这里会遇到两个问题，DOM操作只能在客户端通过Javascript或VBScript等脚本语言进行，加上HTML自身不是非强格式的，不能使用类似XSL对XML解析的方式进行操作。不过既然写这篇Blog，就一定有了解决的办法J。

非常感谢Microsoft的XML大师Chris Lovett为我们带来的SgmlReader这个开源的项目。我们知道，XML和HTML都是Sgml的子集。通过SgmlReader，能够将HTML转换生成格式规范的HTML（Well-Formed HTML，虽然没有这个称呼，但这里暂且这么说），从而可以使用XML的XPath语法读取网页的数据了。那么在.NET Framework下，我们遇到的问题变得如此轻松。

简单写了一个示例程序，用来抓取QQ网站的天气信息，通过更改城市名称和XPath获得网页内容。

代码：下载

PS ：除了 SgmlReader 之外，还有 Simon Mourier 的 .NET Html Agility Pack 也具有类似的功能。

转载于:https://www.cnblogs.com/Microtoby/archive/2005/02/06/102649.html

weixin_30945039

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。