爬虫
文章平均质量分 77
额JS稀饭
这个作者很懒,什么都没留下…
展开
-
Java爬虫使用Selenium+Autoit自动化爬取复杂页面
前言:最近玩爬虫的时候,遇到一个国外的图片网站,具体哪个就不说了,这个站很有意思,即使拿到了图片的链接,用httpclient下载都不行,不是User-Agent的原因,不知道图片服务器的后端有什么校验,没办法了,只能用Selenium上了,js逆向成本太高了(其实是我不擅长0.0)这个站用的:下面进入正题:既然拿到图片url也不能用httpclient下载了,那我直接下载整...原创 2020-01-04 14:39:40 · 1037 阅读 · 0 评论 -
使用Selenium爬取js渲染的页面
自从我的个人博客搭建起之后,每天的nginx日志里面都有很多来自爬虫的请求,大多都是 /index.php/login.php /admin.php等等之类的请求.据说互联网50%以上的流量都是来自爬虫,以前前后端未分离的时候,页面都是服务端渲染好后返回给客户端,这样的页面就很好爬取,模拟一个http请求就能获取到后端的资源.随着AJAX技术不断的普及,以及现在的angular和R...原创 2019-07-21 19:19:28 · 3592 阅读 · 3 评论 -
Java实现一个ip池,让你的蜘蛛畅行无阻
玩爬虫的时候,如果访问的太频繁的话,很容易被封ip,一物降一物,有反爬,当然就有反反爬╰( ̄▽ ̄)╭为了防止ip被封,就可以使用ip代理,让代理服务器帮你完成这个请求,再将请求结果返回给你,是不是很像平时我们用的梯子( ‵▽′)ψ ;使用代理之后,你的每个请求都是由很多个代理服务器帮你完成.国内用的比较多的就是西刺代理,还有其他代理也不错;下面用java实现一个ip代理池:这...原创 2019-09-15 19:50:25 · 2153 阅读 · 4 评论 -
使用Selenium(WebDriver)滑动页面,爬取下拉加载的信息
爬某些视频网站的时候,有些视频列表是下拉加载的,js请求参数都是加密或者混淆的,要想逆向也比较麻烦;有个简单方法,就是使用Selenium包,Selenium有Java的API也有Python的,下面说一下Java使用Selenium怎么下拉滑动页面,动态加载信息;一,引入依赖 <dependency> <groupId>or...原创 2019-09-27 22:13:12 · 2979 阅读 · 0 评论