前言
不适合没有爬虫基础的,自己写着玩玩,其中的IP地址,也是爬取下来的,实时在变
注意:没有对IP地址进行校验
爬取豆瓣电影,豆瓣电影现在都有反爬虫机制,我们采用2种方法:
- 不同浏览器标识:User_agent(模拟不同的浏览器)
- 不同的IP地址:proxies(防止IP地址被封)
- 爬取间隔2秒:防止网页扫描频繁操作
导入需要的库
import pandas as pd
import requests
from bs4 import BeautifulSoup
import random
import time
随机生产浏览器标识user-agent
#随机生成User_agent,浏览器标识
def get_ua():
first_num = random.randint(55, 76)
third_num = random.randint(0, 3800)
fourth_num = random.randint(0, 140)
os_type = [
'(Windows NT 6.1; WOW64)', '(Windows NT 10.0; WOW64)', '(X11; Linux x86_64)',
'(Macintosh; Intel Mac OS X 10_14_5)'
]
chrome_version = 'Chrome/{}.0.{}.{}'.