爬取豆瓣TOP250-避免反爬虫(2021-10-09)

前言

不适合没有爬虫基础的,自己写着玩玩,其中的IP地址,也是爬取下来的,实时在变
注意:没有对IP地址进行校验
爬取豆瓣电影,豆瓣电影现在都有反爬虫机制,我们采用2种方法:

  1. 不同浏览器标识:User_agent(模拟不同的浏览器)
  2. 不同的IP地址:proxies(防止IP地址被封)
  3. 爬取间隔2秒:防止网页扫描频繁操作

导入需要的库

import pandas as pd
import requests
from bs4 import BeautifulSoup
import random
import time

随机生产浏览器标识user-agent

#随机生成User_agent,浏览器标识
def get_ua():
    first_num = random.randint(55, 76)
    third_num = random.randint(0, 3800)
    fourth_num = random.randint(0, 140)
    os_type = [
        '(Windows NT 6.1; WOW64)', '(Windows NT 10.0; WOW64)', '(X11; Linux x86_64)',
        '(Macintosh; Intel Mac OS X 10_14_5)'
    ]
    chrome_version = 'Chrome/{}.0.{}.{}'.
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值