2# 导入网络请求模块 requests
3import requests
4# 导入 random 模块用来产生随机数
5import random
2、定义爬虫地址、并伪装头部信息
1# 定义请求的 url 接口(需要请求的接口),假设接口 https://movie.douban.com/j/new_search_subjects
2url = ‘https://movie.douban.com/j/new_search_subjects’
3
4# 初识 user-agent,事先准备 user-agent 用于头部信息伪装
5# 后续会说到如何生成 user-agent
6user_agent = ['Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 ’
7 ‘Safari/537.36’,
8 ‘Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0)’,
9 'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 ’
10 'Safari/534.50 ’
11 ]
12
13# 定义请求头部信息(字典类型)
14headers = {
15 # User-Agent 信息用于伪装成用户访问,random.randint(0,2) 随机取出数组中定义好的一个
16 ‘User-Agent’: user_agent[random.randi