day25-登录和代理IP

day25-登录和代理IP

1.request登录反扒过程

1)用谷歌浏览器打开需要爬取的网站,人工完成登录
2)获取这个网站登录后的cookie信息:
检查 -> Network -> All -> 网站域名 -> Headers -> RequestHeader -> cookie
3)在headers对应的字典中添加键值对: ‘cookie’: 获取到的cookie信息

headers = {
    'cookie': '...',
    'user-agent': '...'
} 
response = requests.get('https://www.zhihu.com/', headers=headers)

print(response.text)
selenium获取cookie
  1. 打开需要做自动登录的网站

  2. 提供足够长的时间让人工在这个页面中完成登录(登录后一定要保证b对应的窗口出现登录信息)

  3. 获取登录后的cookie信息保存到本地文件中(建议保存一个json)

b = Chrome()
b.get('https://www.taobao.com')
input('登录完成:')
cookies = b.get_cookies()

with open('files/taobao.json', 'w', encoding='utf-8') as f:
    f.write(dumps(cookies))

b.close()
selenium使用cookie
  1. 打开需要爬取的网站
  2. 从cookie文件中获取cookie信息并且添加到浏览器对象中
  3. 重新打开网页
b = Chrome()
b.get('https://www.taobao.com')
with open('files/taobao.json', encoding='utf-8') as f:
    cookies = loads(f.read())

for x in cookies:
    b.add_cookie(x)
    
b.get('https://www.taobao.com')

input('end:')
b.close()
requests使用代理IP
headers = {
    'user-agent': '...'
}

# 创建代理对象
# proxies = {
#     'https': 'http://183.165.224.25:4554',
#     'http': 'http://183.165.224.25:4554'
# }//此处IP使用时间很短,可能已过期
proxies = {
    'https': '183.165.224.25:4554',
    'http': '183.165.224.25:4554'
}
# 发送请求的时候使用代理
response = requests.get('https://www.maoyan.com/', headers=headers, proxies=proxies)
# 解决乱码问题
response.encoding = 'utf-8'
print(response.text)
代理ip的实际用法
import requests
import time
from bs4 import BeautifulSoup


def get_ip():
    """
    获取代理ip,如果获取失败过2秒再重新获取
    :return: 获取到的ip地址
    """
    while True:
        response = requests.get('...')#此处为获取代理IP的网址,可网上搜索
        result = response.text
        if result[0] == '{':
            print('ip获取失败')
            time.sleep(2)
        else:
            return result


def get_net_data():
    url = 'https://www.maoyan.com/'
    headers = {
        'user-agent': '...'
    }

    # 使用代理ip发送请求,如果代理失败,重新获取新的ip重新再发送请求
    while True:
        ip = get_ip()
        print(ip)
        proxy = {
            'https': ip
        }
        response = requests.get(url, headers=headers, proxies=proxy)
        response.encoding = 'utf-8'
        print(response.text)

        soup = BeautifulSoup(response.text, 'lxml')
        movies_div = soup.select('.movie-list .movie-item')
        if len(movies_div) == 0:
            continue
        else:
            print('爬虫成功!做后续的解析操作')
            break


if __name__ == '__main__':
    get_net_data()
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

阿酱不秃

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值