爬虫
vansl
Java需要不断的练习。
展开
-
记一次python+selenium+chrome爬虫
爬虫过程中,只要是稍微复杂一些的页面,经常会遇到经JS生成的数据,导致抓取的页面和我们在浏览器中看到的页面不一致,这些数据用请求简单静态页面的方式往往是是获取不到的。这也是我们爬虫的难点之一。我把“经JS生成的数据”分为两类:1,通过AJAX直接返回的数据(如JSON);2,执行JS后浏览器重新渲染的数据。selenium是一个强大的浏览器自动化测试l框架,配合相应驱动与浏览器能够模拟浏览器操原创 2017-10-15 11:41:05 · 1866 阅读 · 0 评论 -
python爬虫之反爬虫情况下的煎蛋网图片爬取初步探索
本次爬虫网址:http://jandan.net/ooxx前言: 前段时间一直在折腾基于qqbot的QQ机器人,昨天用itchat在微信上也写了一个机器人,相比webqq,微信的web端功能比较丰富,图片、文件等都可以传输。今天闲来无事准备给写个爬虫丰富微信机器人的功能,就想到了爬煎蛋网上面的图片。 说做就做,打开浏览器一看,渲染前的源码里是没有图片地址的。这个很正常,原创 2017-12-06 19:04:02 · 11741 阅读 · 10 评论 -
selenium重复执行move by offset时位移值自动累加的问题
这几天在他人代码(使用python的OpenCV模块识别滑动验证码的缺口)的基础上写如下滑动验证码的破解: 为了模拟人工操作实现加速—>减速的效果,selenium的move by offset这个方法需要执行多次。实际执行的时候我发现滑块总是会滑过头,而且偏差很大,直接滑到原图外面了。核心代码如下(另外说句题外话,网页上的图片是原图缩小过的,注意distance需要乘上缩放比例,一开...原创 2018-06-06 23:18:37 · 10753 阅读 · 7 评论