selenium相关介绍
Selenium是一个用于Web应用程序测试的工具,它直接运行在浏览器中,就像真正的用户在操作一样。至于它有什么样的作用,慢慢来说。
如果我们去写web应用,我们该怎么封锁别人的爬虫呢。 我们常用的反爬手段有通过校检headers字段来反爬、通过JavaScript来反爬、通过验证码来反爬、通过ip地址来反爬和加密反爬等手段。
通过headers字段反爬,这个非常容易解决,别人只需要把浏览器中headers字段复制到get请求里就能解决,是最容易被解决的反爬手段。
通过ip地址来反爬,通常构建一个代理ip池就可以解决。(构建代理ip池也是一门大学问,我们在之前构建的是一个非常非常简陋的ip池罢了)
通过验证码反爬,这个你调用别人写好的OCR接口,也是可以识别出来,难度不大。
JavaScript反爬。这个不仅需要你精通JS,而且还需要能看懂他们写的代码,更蛋疼的是这些代码通常都有几百几千行。解决这个问题的难度是非常大的。
加密反爬。这个就更难了,不仅要精通JS,还要懂密码学。
我们再来看看selenium,它是直接运行在浏览器里的,而我们所需要的数据一般都会被浏览器渲染在了页面上。那也就是说,我们可以通过selenium的特点可以跳过JS反爬和加密反爬。
selenium环境配置
首先是pip install selenium,安装selenium。我已经安装好了,就不重新安装了。
然后查看你谷歌浏览器的版本。
然后打开http://npm.taobao