在此之前先说下爬虫:
爬虫的原理不过是通过请求一个url地址,得到返回的数据,一般是html文本格式的,再通过正则表达式等解析html文本获得我们需要的数据,因此不是只有python才可以写爬虫,大多数语言都可以写,不过目前来看python提供的语法,函数,方法库是最方便快捷的。
下面来说说爬虫的隐藏,为什么要隐藏?
因为很多网站是不愿意程序去访问他们的服务器的,因为服务器访问速度太快,且多他们的宣传不会起到很好的作用,最重要的是会导致其他正常用户访问变慢甚至是服务器崩溃,所以很多服务器都会采取一些方式来辨别非正常用户的访问并屏蔽,最常用的两种方法是:
1.通过请求头的User-Agent的值判断,这个key存储的信息是访问服务器所用的浏览器以及系统信息等,如果服务器发现这个值为空或其他异常值,那么就会判断此用户为非正常用户,屏蔽访问,当你访问时会报403错误
解决方案:通过设置request的请求头来模拟浏览器访问,让服务器可以接收到User-Agent的正常值,设置request的请求头有两种方法,a)通过Request的headers参数修改,b)通过Request.add_header()方法修改,这里就不陈述具体用法了,百度上都有。
2.通过同一个ip地址访问频率判断,在服务器端如果检测到同一个ip不断且快速的访问服务器,那么服务器也会判断此ip并非人为正常访问,并屏蔽此ip的访问,最终在访问几次后会抛给你一个403.
解决方案:使用ip代理或者访问延时,先来说说代理IP:代理ip可以到网上找免费的,也可以去买稳定点的代理ip,步骤如下:
Proxy_support = urllib.request.ProxyHandler({'ip:端口'})#1.设定参数
opener = urllib.request.build_opener(proxy_support)#2.定制创建一个openerurllib.request.install_opener(openner)#3.安装opener
opener.open(url)#4.调用opener