.net模拟浏览器执行JS

AliceSama

已于 2023-09-04 16:59:05 修改

阅读量405

点赞数 2

文章标签： javascript 爬虫 .netcore

于 2023-02-08 17:31:33 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_42002856/article/details/128939484

版权

在编写爬虫爬取一些页面时，存在部分内容是服务端渲染，部分内容是ajax请求数据后js渲染。为方便操作可以使用PuppeteerSharp模拟浏览器执行js代码，最后从渲染好的页面上获取自己需要的数据

首先在nuget安装PuppeteerSharp和HtmlAgilityPack

在startup里面加下面这段代码，项目启动的时候会下载chrome.exe

    
                //如果项目目录.local-chromium下没有chrome.exe则下载 用于爬取数据 执行网页js
                await new BrowserFetcher().DownloadAsync(BrowserFetcher.DefaultChromiumRevision);

使用方法如下

                
                using (var browser = await Puppeteer.LaunchAsync(new LaunchOptions()
                {
                	//无头模式启动，如果设置为false则会启动一个浏览器图形界面
                    Headless = true,

                }))
                {
                    using (var page = await browser.NewPageAsync())
                    {
                        await page.SetJavaScriptEnabledAsync(true);
                        url = $"{_bookSpiderSetting.Url}{book.SkuId}.html";
                        await page.GoToAsync(url);
                        //得到html
                        var htmlText = await page.GetContentAsync();
                        
                    }
                }

使用HtmlAgilityPack来获取html上的内容


		                HtmlDocument detailDoc = new HtmlDocument();
		                detailDoc.OptionOutputAsXml = true;
		                //加载html的字符串
		                detailDoc.LoadHtml(htmlText);
		                //获取class包含item selected的div下的i标签的内容
		                var bookName = detailDoc.DocumentNode.SelectSingleNode("//div[contains(@class,'item  selected')]//i")?.InnerText

HtmlAgilityPack使用方法参考xpath教程

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
.net模拟浏览器执行JS

.net模拟浏览器执行JS
复制链接

扫一扫

AliceSama CSDN认证博客专家 CSDN认证企业博客

码龄6年

7: 原创

85万+: 周排名

30万+: 总排名

2741: 访问

: 等级

81: 积分

6: 粉丝

10: 获赞

4: 评论

10: 收藏

私信

关注

热门文章

最新评论

windows系统补丁下载地址
CSDN-Ada助手: 恭喜您发布了第7篇博客！您的主题“windows系统补丁下载地址”对于我们这些需要经常更新系统的用户来说非常有用。希望您能继续分享更多关于系统维护和优化的知识，比如系统安全设置、软件推荐等方面的内容也是我们非常期待的。谢谢您的辛勤付出，期待您的下一篇博客！
.netcore使用Selenium+PhantomJS
CSDN-Ada助手: 恭喜您撰写了第6篇博客！标题为“.netcore使用Selenium+PhantomJS”，这篇博客听起来非常有趣且实用。您的能力和专业知识在这个领域中得到了充分展示，让读者能够了解如何在.netcore中使用Selenium+PhantomJS。在未来的创作中，我希望您能够继续分享您的经验和见解，或许可以探讨一些常见问题的解决方案，或者是给出一些实践中的技巧和技巧分享。期待您下一篇博客的发布！
在win7上将.netcore程序以服务的方式运行
CSDN-Ada助手: 恭喜您写了第5篇博客！标题很吸引人，看起来您在win7上将.netcore程序以服务的方式运行的经验非常有价值。持续创作博客是一个很好的方式，能够分享您的知识和经验，帮助更多的人。下一步，我建议您可以继续探索.netcore在不同操作系统上的应用，比如在Linux或者Mac上的运行方式。这样的话，读者们也能够更全面地了解和应用您的教程。期待您更多的精彩内容！
.netcore使用中间件替换请求body中的字符串
CSDN-Ada助手: 恭喜您写了第四篇博客！标题“`.netcore使用中间件替换请求body中的字符串`”非常吸引人。阅读了您的博客后，我对如何在`.netcore`中使用中间件替换请求body中的字符串有了更深入的了解。您的解释非常清晰，并且示例代码也非常有帮助。继续创作博客是非常值得鼓励的事情。下一步，我建议您可以考虑分享更多关于`.netcore`中间件的使用技巧，或者深入探讨与中间件相关的其他主题。我相信您的经验和知识可以为读者带来更多启发和帮助。再次祝贺您，并期待您未来的创作！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
mongodb替换指定字符
CSDN-Ada助手: 恭喜您又完成了一篇博客，不断学习和分享经验是一个非常值得称赞的行为。关于下一步的创作建议，我想提醒您可以多关注一些行业动态和热门话题，结合自身经验和思考，写出更加有价值的内容。同时，也期待您在未来的创作中能够继续保持谦逊和创新的精神，为读者带来更多的收获和启发。 CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3，我们会奖励持续创作和学习的博主，请看：https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply3

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。