使用python爬取豆瓣Top250排行榜数据

最新推荐文章于 2024-07-18 15:53:23 发布

程序员川雪

最新推荐文章于 2024-07-18 15:53:23 发布

阅读量540

点赞数 15

文章标签： python 网络爬虫

本文链接：https://blog.csdn.net/2303_81403407/article/details/135329111

版权

文章目录

目标网址

https://movie.douban.com/top250

在这里插入图片描述

目标数据，爬取到电影名称，导演名字和年份，评分和评价人数

页面分析

在这里插入图片描述

通过F12可以直接搜索到目标数据，那么说明html结构和数据是一次性加载的，不需要二次记载

代码编写

首先导入模块

import requests
import re

接着编写代码

url="https://movie.douban.com/top250"


resp= requests.get(url)
resp.encoding="utf-8"
print(resp.text)

在这里插入图片描述

运行一下发现并没有拿到数据，那么可能要添加一下请求头

在页面上F12

在这里插入图片描述

把User-Agent拿下来，然后填上header

headers={
   
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36"
}

resp= requests

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

程序员川雪

关注关注

15
点赞
踩
10

收藏

觉得还不错? 一键收藏
1
评论
使用python爬取豆瓣Top250排行榜数据

通过F12可以直接搜索到目标数据，那么说明html结构和数据是一次性加载的，不需要二次记载。接下来就只需要提取数据就可以了，可以用正则，也可以用xpath。目标数据，爬取到电影名称，导演名字和年份，评分和评价人数。运行一下发现并没有拿到数据，那么可能要添加一下请求头。把User-Agent拿下来，然后填上header。我这里用正则匹配的方式进行提取。这个时候就拿到我们要的数据了。
复制链接

扫一扫