从html文档中筛选出链接,c#-使用XPath(和HtmlAgilityPack)从HTML表中选择所有链接

最新推荐文章于 2021-06-30 09:49:12 发布

韩北樱

最新推荐文章于 2021-06-30 09:49:12 发布

阅读量261

点赞数

文章标签：从html文档中筛选出链接

这篇博客讨论了如何使用HTML Agility Pack库通过XPath查询从具有特定类的HTML表格中提取以http://, https://或/开头的链接。作者遇到了问题，即只指定'a'元素无法正确工作，并提供了修正后的XPath表达式。解决方案涉及到处理XmlNode.SelectNodes()返回的XmlNodeList，以及确保XPath查询正确匹配所需链接。

摘要由CSDN通过智能技术生成

我要实现的目的是提取带有以http：//,https：//或/开头的href属性的所有链接.这些链接位于具有特定类的表(tbody> tr> td等)内.我以为我可以只指定a元素,而不需要完整的路径,但它似乎不起作用.我在选择链接的那一行得到了NullReferenceException：

var table = doc.DocumentNode.SelectSingleNode("//table[@class='containerTable']");

if (table != null)

{

foreach (HtmlNode item in table.SelectNodes("a[starts-with(@href, 'https://')]"))

{

//not working

关于XPath,我不知道任何建议或最佳实践.两次查询文档时是否会产生开销？

解决方法:

采用：

//tbody/descendant::a[starts-with(@href,'https://')

or

starts-with(@href,'http://')

or

starts-with(@href,'./')

]

除非纠正代码以反映XmlNode.SelectNodes()实例方法的返回类型为XmlNodeList而不是HtmlNode,否则您仍然会遇到问题.

标签：xpath,html-agility-pack,c

来源： https://codeday.me/bug/20191024/1918434.html

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。