有哪些有趣的反爬虫机制吗?

即供参考:

1。header 检验

最简单的反爬机制,就是检查 HTTP 请求的 Headers 信息,包括 User-Agent, Referer、Cookies 等。

2。User-Agent

User-Agent 是检查用户所用客户端的种类和版本,在 Scrapy 中,通常是在下载器中间件中进行处理。比如在 setting.py 中建立一个包含很多浏览器 User-Agent 的列表,然后新建一个 random_user_agent 文件:

  1. classRandomUserAgentMiddleware(object):
  2. @classmethod
  3. defprocess_request(cls, request, spider):
  4. ua = random.choice(spider.settings['USER_AGENT_LIST'])
  5. ifua:
  6. request.headers.setdefault('User-Agent', ua)

这样就可以在每次请求中,随机选取一个真实浏览器的 User-Agent。

3。Referer

Referer 是检查此请求由哪里来,通常可以做图片的盗链判断。在 Scrapy 中,如果某个页面 url 是通过之前爬取的页面提取到,Scrapy 会自动把之前爬取的页面 url 作为 Referfer。也可以通过上面的方式自己定义 Referfer 字段。

4。Cookies

网站可能会检测 Cookie 中 session_id 的使用次数,如果超过限制,就触发反爬策略。所以可以在 Scrapy 中设置 COOKIES_ENABLED = False让请求不带 Cookies。

也有网站强制开启 Cookis,这时就要麻烦一点了。可以另写一个简单的爬虫,定时向目标网站发送不带 Cookies 的请求,提取响应中 Set-cookie 字段信息并保存。爬取网页时,把存储起来的 Cookies 带入 Headers 中。

5。X-Forwarded-For

在请求头中添加 X-Forwarded-For 字段,将自己申明为一个透明的代理服务器,一些网站对代理服务器会手软一些。

首先想做好爬虫 一款好的代理ip必不可少
这里推荐一款适合爬虫的代理ip---代理云
爬虫的小伙伴可以去领取免费的代理IP试一下
国内高质动态IP。时效2-10分钟,现在注册还能免费领取一万代理IP

pc代理云 - 可视化用户控制台icon-default.png?t=M0H8http://console.v4.dailiyun.com/user/?channel=wyh-csdn移动 代理云 - 可视化用户控制台icon-default.png?t=M0H8http://console.v4.dailiyun.com/user/mobile/?channel=wyhM-csdn

X-Forwarded-For 头一般格式如下

  1. X-Forwarded-For: client1, proxy1, proxy2

这里将 client1,proxy1 设置为随机 IP 地址,把自己的请求伪装成代理的随机 IP 产生的请求。然而由于 X-Forwarded-For 可以随意篡改,很多网站并不会信任这个值。

限制 IP 的请求数量

如果某一 IP 的请求速度过快,就触发反爬机制。当然可以通过放慢爬取速度绕过,这要以爬取时间大大增长为代价。另一种方法就是添加代理。

  1. request.meta['proxy'] = 'http://'+ 'proxy_host'+ ':'+ proxy_port

然后再每次请求时使用不同的代理 IP。然而问题是如何获取大量的代理 IP?

可以自己写一个 IP 代理获取和维护系统,定时从各种披露免费代理 IP 的网站爬取免费 IP 代理,然后定时扫描这些 IP 和端口是否可用,将不可用的代理 IP 及时清理。这样就有一个动态的代理库,每次请求再从库中随机选择一个代理。然而这个方案的缺点也很明显,开发代理获取和维护系统本身就很费时费力,并且这种免费代理的数量并不多,而且稳定性都比较差。如果必须要用到代理,也可以去买一些稳定的代理服务。这些服务大多会用到带认证的代理。

在 requests 库中添加带认证的代理很简单,

  1. proxies = {
  2. "http": "http://user:pass@10.10.1.10:3128/",
  3. }

然而 Scrapy 不支持这种认证方式,需要将认证信息 编码后,加入 Headers 的 Proxy-Authorization 字段:

  1. import
  2. # Set the location of the proxy
  3. proxy_string = choice(self._get_proxies_from_file('proxies.txt')) # user:pass@ip:port
  4. proxy_items = proxy_string.split('@')
  5. request.meta['proxy'] = "http://%s"% proxy_items[1]
  6. # setup basic authentication for the proxy
  7. user_pass=.encodestring(proxy_items[0])
  8. request.headers['Proxy-Authorization'] = 'Basic '+ user_pass

6。动态加载

现在越来越多的网站使用 ajax 动态加载内容,这时候可以先截取 ajax 请求分析一下,有可能根据 ajax 请求构造出相应的 API 请求的 URL 就可以直接获取想要的内容,通常是 json 格式,反而还不用去解析 HTML。

然而,很多时候 ajax 请求都会经过后端鉴权,不能直接构造 URL 获取。这时就可以通过 PhantomJS+Selenium 模拟浏览器行为,抓取经过 js 渲染后的页面。具体可以参考:

需要注意的是,使用 Selenium 后,请求不再由 Scrapy 的 Downloader 执行,所以之前添加的请求头等信息都会失效,需要在 Selenium 中重新添加

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值