使用HAP抓取HTML网页内容实例

最新推荐文章于 2022-08-17 16:44:20 发布

edychang

最新推荐文章于 2022-08-17 16:44:20 发布

阅读量1.2k

点赞数

分类专栏： C# 文章标签： C# HAP html XQuery

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/edychang/article/details/12517199

版权

C# 专栏收录该内容

0 篇文章 0 订阅

订阅专栏

前言

最近有个任务需要把Functx XQuery Functions(http://www.xqueryfunctions.com/)上面所有的functx相关的function defintion全部down下来，存到本地文件中，这是个简单的活儿，却是个枯燥的活儿。鉴于本人对于枯燥乏味事情的极端厌恶，我准备编程来解析这些网页。这篇帖子就准备记录解决这个任务的过程。

正文

1、简单的搜索了下我找到了HTML Agility Pack（http://htmlagilitypack.codeplex.com/），这边有一篇中文繁体的tutorial：http://msdn.microsoft.com/zh-tw/ee787055.aspx；

2、我刚开始学习使用HAP的时候，有个错误的理解认为可以根据Chrome的“审查元素”功能来找到对应node的xpath，然后用doc.DocumentNode.SelectNodes方法来获取到相应的node，事实证明这样是不行的，关于为什么，这边有篇很好的讨论：http://stackoverflow.com/questions/15826875/html-agility-pack-using-xpath-to-get-a-single-node-object-reference-not-set；

3、好吧，简单来说这个任务我搞定了，详细的源文件请见：https://github.com/edychang/mytoolkits/blob/master/applications/xquery_function_parser/FunctxParser/Program.cs

4、话说C#真的是相当NB啊，不看任何书的前提下两天就能搞定一个C#程序说明这个语言学习曲线很平滑啊。

5、使用HAP的关键在于XPath的运用。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
使用HAP抓取HTML网页内容实例

前言最近有个任务需要把Functx XQuery Functions(http://www.xqueryfunctions.com/)上面所有的functx相关的function defintion全部down下来，存到本地文件中，这是个简单的活儿，却是个枯燥的活儿。鉴于本人对于枯燥乏味事情的极端厌恶，我准备编程来解析这些网页。这篇帖子就准备记录解决这个任务的过程。正文1、简单
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。