htmlAgilitypack抓取页面总结

近两天一直在搞页面抓取,先开始是想从正则式下手,然后轻而易举的写了个抓取总页数的正则,并且成功抓到,后来抓取table里的数据真发愁了,因为table里的数据有图片属性,有td值,很不好抓,幸好找了个好插件htmlAgilitypack转换xml,废话不多说,开始总结,这这之前请先学一下xpath语法。

引入using HtmlAgilityPack;和dll

一:装载页面

HtmlWeb web = new HtmlWeb();
web.OverrideEncoding = Encoding.GetEncoding("gb2312");
HtmlDocument doc = web.Load(@地址);

二:寻找节点

 HtmlNodeCollection listnode = doc.DocumentNode.SelectNodes("//table[@class='hbdtinfo1']/tr");这个参数是xpath

这里的是个node集合,你可以遍历它去出里面的node,并且每个node还有好多方法取到它下面的任一个node任何属性值

三:没有了,大功告成,简单吧,提醒一句图片是抓不到的

qq群:257020224

转载于:https://www.cnblogs.com/weiwin/archive/2013/05/09/3069203.html

HtmlAgilityPack是一个用于解析HTML文档的工具,它不支持直接点击页面获取元素。如果您需要在程序中模拟点击页面并获取元素,可以使用Selenium WebDriver或其他自动化测试工具。 Selenium WebDriver是一个流行的自动化测试工具,它可以模拟用户在浏览器中的操作,比如点击、输入文本、提交表单等。您可以使用Selenium WebDriver来模拟点击页面并获取元素,然后使用HtmlAgilityPack来解析元素的HTML标记和文本。 以下是一个使用Selenium WebDriver和HtmlAgilityPack的示例代码,它可以在程序中模拟点击页面并获取元素: ``` using OpenQA.Selenium; using OpenQA.Selenium.Chrome; using HtmlAgilityPack; // 创建Chrome浏览器驱动 IWebDriver driver = new ChromeDriver(); // 打开页面 driver.Navigate().GoToUrl("https://www.baidu.com/"); // 点击按钮 IWebElement button = driver.FindElement(By.Id("su")); button.Click(); // 获取搜索结果 IWebElement result = driver.FindElement(By.CssSelector("#content_left h3.t a")); string resultHtml = result.GetAttribute("outerHTML"); // 解析搜索结果的HTML标记和文本 HtmlDocument doc = new HtmlDocument(); doc.LoadHtml(resultHtml); HtmlNode link = doc.DocumentNode.SelectSingleNode("//a"); string href = link.Attributes["href"].Value; string text = link.InnerText; // 关闭浏览器驱动 driver.Quit(); ``` 在这个示例代码中,我们首先创建了Chrome浏览器驱动,然后打开了百度首页。接着我们模拟点击搜索按钮,并获取搜索结果的HTML标记。然后我们使用HtmlAgilityPack解析搜索结果的HTML标记和文本,并获取搜索结果的链接和文本。最后我们关闭了Chrome浏览器驱动。 需要注意的是,使用Selenium WebDriver需要安装对应的浏览器驱动,并将驱动添加到系统环境变量中。此外,Selenium WebDriver还需要与浏览器的版本匹配,否则可能会出现兼容性问题。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值