爬取豆瓣TOP250-避免反爬虫（2021-10-09）

最新推荐文章于 2025-04-06 20:45:04 发布

铁憨憨0304

最新推荐文章于 2025-04-06 20:45:04 发布

阅读量6.6k

点赞数 2

分类专栏： python爬虫文章标签：爬虫 python

本文链接：https://blog.csdn.net/qh_aichun/article/details/120673913

版权

前言

不适合没有爬虫基础的，自己写着玩玩，其中的IP地址，也是爬取下来的，实时在变
注意：没有对IP地址进行校验
爬取豆瓣电影，豆瓣电影现在都有反爬虫机制，我们采用2种方法：

不同浏览器标识：User_agent（模拟不同的浏览器）
不同的IP地址：proxies（防止IP地址被封）
爬取间隔2秒：防止网页扫描频繁操作

导入需要的库

import pandas as pd
import requests
from bs4 import BeautifulSoup
import random
import time

随机生产浏览器标识user-agent

#随机生成User_agent,浏览器标识
def get_ua():
    first_num = random.randint(55, 76)
    third_num = random.randint(0, 3800)
    fourth_num = random.randint(0, 140)
    os_type = [
        '(Windows NT 6.1; WOW64)', '(Windows NT 10.0; WOW64)', '(X11; Linux x86_64)',
        '(Macintosh; Intel Mac OS X 10_14_5)'
    ]
    chrome_version = 'Chrome/{}.0.{}.{}'.