python爬虫的隐藏

在此之前先说下爬虫:

爬虫的原理不过是通过请求一个url地址,得到返回的数据,一般是html文本格式的,再通过正则表达式等解析html文本获得我们需要的数据,因此不是只有python才可以写爬虫,大多数语言都可以写,不过目前来看python提供的语法,函数,方法库是最方便快捷的。

下面来说说爬虫的隐藏,为什么要隐藏?

因为很多网站是不愿意程序去访问他们的服务器的,因为服务器访问速度太快,且多他们的宣传不会起到很好的作用,最重要的是会导致其他正常用户访问变慢甚至是服务器崩溃,所以很多服务器都会采取一些方式来辨别非正常用户的访问并屏蔽,最常用的两种方法是:

1.通过请求头的User-Agent的值判断,这个key存储的信息是访问服务器所用的浏览器以及系统信息等,如果服务器发现这个值为空或其他异常值,那么就会判断此用户为非正常用户,屏蔽访问,当你访问时会报403错误

解决方案:通过设置request的请求头来模拟浏览器访问,让服务器可以接收到User-Agent的正常值,设置request的请求头有两种方法,a)通过Request的headers参数修改,b)通过Request.add_header()方法修改,这里就不陈述具体用法了,百度上都有。

2.通过同一个ip地址访问频率判断,在服务器端如果检测到同一个ip不断且快速的访问服务器,那么服务器也会判断此ip并非人为正常访问,并屏蔽此ip的访问,最终在访问几次后会抛给你一个403.

解决方案:使用ip代理或者访问延时,先来说说代理IP:代理ip可以到网上找免费的,也可以去买稳定点的代理ip,步骤如下:

Proxy_support = urllib.request.ProxyHandler({'ip:端口'})#1.设定参数
opener = urllib.request.build_opener(proxy_support)#2.定制创建一个openerurllib.request.install_opener(openner)#3.安装opener
opener.open(url)#4.调用opener
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

baker_zhuang

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值