简单爬虫——爬取Scrape|Movie网站电影排行Top10

最新推荐文章于 2025-03-23 12:26:43 发布

穿过漫长林径

最新推荐文章于 2025-03-23 12:26:43 发布

阅读量3.4k

点赞数 5

分类专栏：新手学爬虫文章标签： python 爬虫

本文链接：https://blog.csdn.net/m0_46331490/article/details/114959901

版权

本文是一篇初级Python爬虫教程，介绍如何爬取Scrape|Movie网站的电影排行榜Top10。通过requests、re和pyquery库解析网页，获取电影的名称、类别、上映时间和评分。教程适合不喜欢复杂分析直接看代码的读者。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.简单说明

本教程仅用来学习，不用于商业目的。这是第一次写文章，排版可能有点差，希望大家理解，嘻嘻。

不喜欢看分析的同学可以直接跳到最后有源代码
在这里插入图片描述
我们要爬的网站为：https://static1.scrape.center/
用到的库有requests、re、pyquery，不多说了直接开整。

2.网站分析

首先进入该网站后，右键-检查-Network，点Network后记得刷新（F5），然后在Name一栏点击第一个，找到User-Agent。
在这里插入图片描述下面我们开始一步步写代码：
首先导入所需的库，没有的先安装；添加头部headers，也就是刚才User-Agent的内容。

import requests
from pyquery import PyQuery as pq
import re

url = 'https://static1.scrape.center/'
headers = {
   
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) '
                  'AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.82 Safari/537.36'
}

然后get()方法请求网页，text属性得到网页的html代码；pyquery再对它进行初始化准备解析网页：

html = requests.get(url).text
doc = pq(html)

分析网页的html代码：

最低0.47元/天解锁文章