python爬虫的隐藏

最新推荐文章于 2021-01-21 10:55:51 发布

baker_zhuang

最新推荐文章于 2021-01-21 10:55:51 发布

阅读量1.4k

点赞数

分类专栏： python 文章标签：爬虫 python

本文链接：https://blog.csdn.net/qq_26881073/article/details/79032877

版权

2 篇文章 0 订阅

订阅专栏

在此之前先说下爬虫:

爬虫的原理不过是通过请求一个url地址，得到返回的数据，一般是html文本格式的，再通过正则表达式等解析html文本获得我们需要的数据，因此不是只有python才可以写爬虫，大多数语言都可以写，不过目前来看python提供的语法，函数，方法库是最方便快捷的。

下面来说说爬虫的隐藏，为什么要隐藏？

因为很多网站是不愿意程序去访问他们的服务器的，因为服务器访问速度太快，且多他们的宣传不会起到很好的作用，最重要的是会导致其他正常用户访问变慢甚至是服务器崩溃，所以很多服务器都会采取一些方式来辨别非正常用户的访问并屏蔽，最常用的两种方法是：

1.通过请求头的User-Agent的值判断，这个key存储的信息是访问服务器所用的浏览器以及系统信息等，如果服务器发现这个值为空或其他异常值，那么就会判断此用户为非正常用户，屏蔽访问，当你访问时会报403错误

解决方案：通过设置request的请求头来模拟浏览器访问，让服务器可以接收到User-Agent的正常值，设置request的请求头有两种方法，a）通过Request的headers参数修改，b）通过Request.add_header()方法修改，这里就不陈述具体用法了，百度上都有。

2.通过同一个ip地址访问频率判断，在服务器端如果检测到同一个ip不断且快速的访问服务器，那么服务器也会判断此ip并非人为正常访问，并屏蔽此ip的访问，最终在访问几次后会抛给你一个403.

解决方案：使用ip代理或者访问延时，先来说说代理IP：代理ip可以到网上找免费的，也可以去买稳定点的代理ip，步骤如下：

Proxy_support = urllib.request.ProxyHandler({'ip:端口'})#1.设定参数

opener = urllib.request.build_opener(proxy_support)#2.定制创建一个openerurllib.request.install_opener(openner)#3.安装opener

opener.open(url)#4.调用opener

关注