C#爬虫
Leaderxin
勿忘初心,砥砺前行
展开
-
C#攻克反爬虫之谷歌浏览器调用
在上一篇爬虫博客中,我们讲述了应对IP访问限制的策略,即爬取代理IP并不断改变代理的方式。但是某些网站不仅在访问时做了限制,而且在返回网页时也做了巧妙的处理,比如在页面加载时调用js动态请求内容等。这种情况就不是简单的发出一个get请求可以爬取的了,这个时候可能就需要调用谷歌浏览器来实现爬取。本篇我们介绍通过C#调用谷歌浏览器来实现动态信息爬取。普通爬虫遭遇的困境假如我们要爬取某博客页面的详细...原创 2019-11-05 21:56:53 · 5149 阅读 · 0 评论 -
C#攻克反爬虫之代理IP爬取
目前很多大型网站在反爬虫时采取IP限制策略,限制同一个IP的请求频率及次数,或者同一IP在达到请求次数后强制登陆验证等。此时我们就需要用到代理IP来突破限制,此篇我们介绍通过DotnetSpider框架爬取西刺高匿代理IP的过程。DotnetSpider框架简介DotnetSpider是.net core开发的开源爬虫项目,基本开箱即用,对于爬虫各个部分的封装已经比较成熟,github下载地址...原创 2019-10-29 21:42:42 · 5969 阅读 · 2 评论