C#爬取动态网页

最新推荐文章于 2019-10-10 15:12:41 发布

tzw_cs

最新推荐文章于 2019-10-10 15:12:41 发布

阅读量8k

点赞数 1

分类专栏： DM 文章标签： C# 爬虫动态网页

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/tanzhangwen/article/details/8262042

版权

一直在尝试用java来爬取网页，然而java总是无法处理动态网页，尤其是js产生的网页。而在如今的web2.0时代，许多的数据都涉及到js，比如新闻评论、微博等。java中htmlparser和htmlunit结合是可以处理静态网页、提交表单的，如爬取人人网，但对于新闻评论就没办法了。也有一些号称可以处理动态网页的开源项目，如jrex等一些开源的浏览器项目。但是我试过之后，总是不能很好的解决，有的可能能处理一小部分的动态网页，但是总是有这样那样的问题，也没有找出处理js后的源码。

一直听说c#中的webbrowser可以处理几乎所有的动态网页，功能很强大。只是之前借用朋友的代码看了看，并从webbrowser执行后的html打印出来（webBrowser1.DocumentText），可发现也是没有执行js之前的源码。于是对其很失望，找了很多的代码发现都是如此。后来再csdn下了一个代码，发现要获取webbrowser执行后的html源码不是我以前看到的，而是webBrowser1.Document.Body.OuterHtml，才恍然大悟。总算找到了出路。

保存源码到文件

        private int SaveToFile(string body, string fileName)
        {
            try
            {
                FileStream fs = new FileStream("E:\\"+fileName + ".html", FileMod

最低0.47元/天解锁文章

关注

1
点赞
踩
15

收藏

觉得还不错? 一键收藏
3
评论
C#爬取动态网页

一直在尝试用java来爬取网页，然而java总是无法处理动态网页，尤其是js产生的网页。而在如今的web2.0时代，许多的数据都涉及到js，比如新闻评论、微博等。java中htmlparser和htmlunit结合是可以处理静态网页、提交表单的，如爬取人人网，但对于新闻评论就没办法了。也有一些号称可以处理动态网页的开源项目，如jrex等一些开源的浏览器项目。但是我试过之后，总是不能很好的解决，有的
复制链接

扫一扫

专栏目录

tzw_cs CSDN认证博客专家 CSDN认证企业博客

码龄15年

136: 原创

7万+: 周排名

149万+: 总排名

36万+: 访问

: 等级

4926: 积分

48: 粉丝

42: 获赞

37: 评论

222: 收藏

私信

关注

热门文章

分类专栏

acm/icpc 46篇
linux 7篇
c++/mfc 6篇
Software 9篇
DM 3篇
Java 12篇
c# 12篇
Python 9篇
NLP 7篇
Database 9篇
testing 15篇
Revision Control 1篇
selenium 12篇
Hadoop 10篇
Jenkins 1篇
Design Pattern 1篇

最新评论

Agent建模之Repast建模编程介绍
tzw_cs: 这个你可以去参考repast的官网 https://repast.github.io/index.html 使用文档： https://www2.econ.iastate.edu/tesfatsi/repastsg.htm
Agent建模之Repast建模编程介绍
weixin_46539086: 那您有没有相关代码内容的教程或者网址推荐，我最近参考的论文里只是讲背景、发展，不是很全面
Agent建模之Repast建模编程介绍
tzw_cs: 这是09年的文章了
Agent建模之Repast建模编程介绍
weixin_46539086: 您好，您文章中的链接我都打不开
C#爬取动态网页
tzw_cs: 这个多年没有维护所以不看了不好意思，估计你也不再需要了。回复给类似遇到这个问题的同学一个参考。像这种动态的比较麻烦一般都需要用js执行才能获取到。另外一种方便的办法是浏览器打开Inspect element 然后看Network，再在页面上点击然后看network的url。比如你这个就会有下面request,然后就用httprequest去发送来得到数据的response。还有一种办法是用webdriver之类的模拟人工的工具去点击然后再获取页面元素去解析。 URL: https://s8hwxkltn6.jiandaoyun.com/_/data/dash/list JSON: {appId: "5de0b3e85600ec0006f420f2", entryId: "5f48d400a25baa0006034c28",…} appId: "5de0b3e85600ec0006f420f2" entryId: "5f48d400a25baa0006034c28" filter: {cond: [], rel: "and"} fx_access_token: "5f48d400a25baa0006034c29" fx_access_type: "dash_public" hasCount: false isCountOnly: false limit: 20 skip: 80 sort: [] widgetId: "_widget_1598608578314"

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。