首先,爬取地址为以下地址:
我们的目标是爬取一页或者多页,并且输出电影的正标题,副标题、其他名、导演和主演、年份、国家、类型、评分、评分人数、名言等信息。
首先要做的是引入requests和bs4两个模块,另外我们还使用到了正则表达式模块re。
import requests # 获取网页内容
from bs4 import BeautifulSoup # 解析网页内容
import re # 正则匹配内容
然后是获取网页内容的主要逻辑,我们需要对爬虫的请求头进行伪装,也就是设置user-agent。
def get_html(URL):
header = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) '
'Chrome/79.0.3945.130 Safari/537.36'}
res = requests.get(URL, headers=header) # 获取网页,并带有伪装的浏览器头,一般好的网站会有检测是不是程序访问
res.encoding = res.apparent_encoding # 设置编码,防止乱码
# print(res.text)#输出网页内容