如何解决爬虫中网站需要进行登陆问题

作为爬虫工作者,在日常爬虫工作中遇到目标网站的反爬机制只是其中的一部分困难。偶尔还会遇到我们访问一些目标凝网站的时候需要使用cookie登陆,服务器会认为你是一个已登陆的用户,所以就会返回给你一个已登陆的内容。因此,需要验证码的情况可以使用带验证码登陆的cookie解。还有就有时候我们访问的网站需要完成一系列的指令,特别是加了代理,就需要同一个ip去完成这些指令,这时我们就需要通过设置随机数来解决。
关于随机数的一些设置我们可以分享给大家参考下,因为在访问目标网站过程中添加代理IP和随机数都是一起的,所以就把代理IP在爬虫程序里面的使用方式分享给大家交流学习下。
#! -- encoding:utf-8 --
import requests
import random
import requests.adapters

# 要访问的目标页面
targetUrlList = [
    "https://httpbin.org/ip",
    "https://httpbin.org/headers",
    "https://httpbin.org/user-agent",
]

# 代理服务器(产品官网 www.16yun.cn)
proxyHost = "t.16yun.cn"
proxyPort = "31111"

# 代理验证信息
proxyUser = "username"
proxyPass = "password"

proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {
    "host": proxyHost,
    "port": proxyPort,
    "user": proxyUser,
    "pass": proxyPass,
}

# 设置 http和https访问都是用HTTP代理
proxies = {
    "http": proxyMeta,
    "https": proxyMeta,
}

#  设置IP切换头
tunnel = random.randint(1, 10000)
headers = {"Proxy-Tunnel": str(tunnel)}


class HTTPAdapter(requests.adapters.HTTPAdapter):
    def proxy_headers(self, proxy):
        headers = super(HTTPAdapter, self).proxy_headers(proxy)
        if hasattr(self, 'tunnel'):
            headers['Proxy-Tunnel'] = self.tunnel
        return headers


# 访问三次网站,使用相同的tunnel标志,均能够保持相同的外网IP
for i in range(3):
    s = requests.session()

    a = HTTPAdapter()

    #  设置IP切换头
    a.tunnel = tunnel
    s.mount('https://', a)

    for url in targetUrlList:
        r = s.get(url, proxies=proxies)
        print r.text

这里我们可以通过检查从每个请求返回的状态代码来验证这些请求结果,它不会总是能让你知道登录阶段是否是成功的,但是可以用来作为一个验证指标。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值