一个简单的python网路爬虫示例——爬取《后来的我们》影评

最新推荐文章于 2024-06-08 17:15:23 发布

唱戏先生

最新推荐文章于 2024-06-08 17:15:23 发布

阅读量582

点赞数 1

分类专栏： python基础

本文链接：https://blog.csdn.net/qq_43131852/article/details/101772986

版权

本文通过Python实现了一个简单的网络爬虫，演示了如何爬取豆瓣电影《后来的我们》的用户评论。从获取网页源码到解析评论，再到爬取多页评论，最后讨论了如何通过设置延时应对网站的反爬机制。

摘要由CSDN通过智能技术生成

1.爬取第一页的所有影评

首先我们用百度搜索《后来的我们》影评，记录下此时的网址，如下：
https://movie.douban.com/subject/26683723/comments?start=0&limit=20&sort=new_score&status=P
在这里插入图片描述

右键当前页面，查看元素，我们可以发现在查看器中，所有的评论都是<p>来显示的，虽然后面的无关文字也有<p>来显示，但我们可以通过限制条件来只选出我们想要的评论。

在这里插入图片描述
接下来我们来选择网络，随便点击一个文件，在右边出现一个属性框，我们拉到最下面，记录下我们所用网页的User-Agent。

完成了所有准备工作，我们开始进行写代码。

为了完成我们的爬虫，我们需要导入两个库，一个是requests库，它用于向网页发送请求，具体用法详见linkhttps://www.cnblogs.com/xinz-study/p/9294452.html，另一个是bs4库中的BeautifulSoup类，用于获取网页的源码，具体用法详见linkhttps://www.jianshu.com/p/26a3632796dd。

完整代码如下：

# 需要调用的requests库和 bs4库中的BeautifulSoup工具
import requests
from bs4 import BeautifulSoup

num = 0  # 定义条数的初始值

# 定义一个变量url，为需要爬取数据我网页网址
url = 'https://movie.douban.com/subject/26683723/comments?start=0&limit=20&sort=new_score&status=P'

# 获取这个网页的源代码，存放在req中，{
   }中为不同浏览器的不同User-Agent属性，怎么获取前面已经介绍
req = requests.get(url,{
   'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:69.0) Gecko/20100101 Firefox/69.0'})

# 生成一个Beautifulsoup对象，用以后边的查找工作
soup = BeautifulSoup(req.text, 'html.parser')

# 找到所有p标签中的内容并存放在xml这样一个类似于数组队列的对象中
xml

最低0.47元/天解锁文章

唱戏先生

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
打赏
0
评论
一个简单的python网路爬虫示例——爬取《后来的我们》影评

1.爬取第一页的所有影评首先我们用百度搜索《后来的我们》影评，记录下此时的网址，如下：https://movie.douban.com/subject/26683723/comments?start=0&limit=20&sort=new_score&status=P右键当前页面，查看元素，我们可以发现在查查看器中，所有的评论都是<p>来显示的，虽然后面...
复制链接

扫一扫