目标网址
https://movie.douban.com/top250
目标数据,爬取到电影名称,导演名字和年份,评分和评价人数
页面分析
通过F12可以直接搜索到目标数据,那么说明html结构和数据是一次性加载的,不需要二次记载
代码编写
首先导入模块
import requests
import re
接着编写代码
url="https://movie.douban.com/top250"
resp= requests.get(url)
resp.encoding="utf-8"
print(resp.text)
运行一下发现并没有拿到数据,那么可能要添加一下请求头
在页面上F12
把User-Agent拿下来,然后填上header
headers={
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36"
}
resp= requests